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USA Today d rcn]ise une enquête de santé qui remplissait 3/4 de page dans un de ses numéros. 
On demandait lui k lecteurs de « prendre un moment pour remplir et renvoyer le formulaire ». 
Les lecteurs pouvaient envoyer leurs réponses par courrier électronique ou par fax, La première 
question demandait combien de fois iis voyaient un médecin par an. La seconde les interrogeait 
sur un bilan de santé pour l'année passée incluant grippe, fièvre, hémorroïdes et verrues. La 
plupart des questions traitaient de conditions de santé, d bisage du tu hue et de médicaments. La 
question Ü était ; « l J ouvünS-riOu$ vous contacter pour participer b d’autres enquêtes de USA 
Today ? », Les lecteurs qui y répondaient positivement devaient alors fournir leur adresse, leur(s) 
numérote) de téléphone et leur adresse -ma il. 

Considérons h façon dont les données sont collectées dans cette enquête. En quoi cela affecte- 
t-il nos conclusions quant à Ea population générale si on se base sur les résultats obtenus à partir 
de ce genre d’enquête ? Pouvons-nous utiliser les nombres de s isites chez les médecins fournis 
pour estimer le nombre de \ isites dans la population générale ? Les réponses à de telles ques- 
tions sont vitales pour I évaluation des résultats de telles enquêtes. 

1 ,e sujet qui est abordé ici est le point le plus important de tout ce chapitre l - L ce pourrait bien 
cire lu point le plus important de J 'ensemble de ce livre, 

Dans ce chapitre nous allons nous intéresser h Ea validité de telles enquêtes. Nous verrons que 
nous pouvons souvent tirer des conclusions importantes à partir vie simples règles de bon sens. 
Après avoir lu ce chapitre, vous devriez être capables d’identifier les points clés qui affectent 
la validité de l’enquête précédente et vous devriez avoir une bonne compréhension des méthodes 
de collecte des données en général, 

L'état des statistiques 

Le mot statistiques est dérivé du mot latin status (qui signifie « état »). Des usages très 
précoces des statistiques se retrouvent dans la compilation de données et de graphiques 
décrivant divers aspects d'un pays ou d'une région. En 1662, John Graunt a publié des 
informations statistiques sur les naissances et les décès. Le travail de Graunt fut suivi par 
des études sur la mortalité, les taux de maladies, les tailles de populations, les revenus et 
tes taux de chômage. Les foyers, les gouvernements et le monde du travail s'appuient 
fortement sur les statistiques pour se guider, par exemple, les taux de chômage ou d'infla- 
tion, les indices de consommation sont soigneusement compilés de façon régulière et les 
données qui en résultent sont utilisées par les chefs d'entreprise pour prendre des déci- 
sions qui affectent les achats futurs r les niveaux de production et l'expansion vers de 
nouveaux marchés. 




? 


Devriez-vous croire à une étude statistique ? 

Dans la seconde édition de Statistical Reasoning for Everyday Life , les auteurs Jeff Bennett, 
William Briggs et Mario Triola listent les S points fondamentaux pour évaluer de façon 
critique une étude statistique : (1 J identifier le but de l'étude, la population considérée et 
te type d'étude ; (2) considérer les sources,, en particulier au regard d'une possibilité de 
biais ; (3) ana lyser la méthode d'échantillonnage ; (4) chercher les problèmes de définition 
ou de mesure des variables d'intérêt : (5) surveiller les variables confondantes qui 
pourraient invalider les conclusions ; {6) considérer le cadre et la formulation de X enquête ; 
(7) vérifier que les graphiques représentent fidèlement les données et que les conclusions 
sont justifiées ; (3} déterminer si fes conclusions répondent au but de l'enquête, si elles ont 
du sens et si elles ont une signification pratique. 



Le niveau intervalle de mesure esc semblable au niveau ordinal avec !lï propriété 
supplémentaire que in différence entre deux valeurs a un sens, Cependant, a ce niveau, 
les données ii'om pas de zéro naturel de référence (pour lequel aucune quantité n'est 
présente), 


jgg g Exemples 

u tn/f I- Températures : [es températures du corps humain comme 36. -8 ,J C et 37,0 sont 
des exemples de données nu niveau intervalle. Ces valeurs sont ordonnées et nous 
pouvons déterminer que leur différence est de 02 °C . Cependant il n'y a pas de zéro naturel de 
référence. La valeur de 0 C C pourrait sembler être un point de référence mais c'est une valeur 
arbitraire et cela ne représente pas l'absence totale de chaleur. Parce que 0 "C n’est pas un zéro 
naturel de référence, il est faux de dire que 30 est deux fois plus chaud que 25 "C 

Z. Années d'apparition des cigales t les années 1936, 1933, 3970, 19&7 et 20 04 (le temps n’a 
pas commencé à l'année 0, ainsi l’année U est arbitraire au lieu d’être un zéro naturel de référence 
représentant « pas de temps »). 


Le niveau rapport de mesure est semblable au EtiveOU Intervalle ü\eC la propriété 
supplémentaire qu’il y a un zéro naturel de référence pour lequel aucune quantité n'est 
présente. Lotir les v: i leurs i,j ce niveau, les différences eL les rapports oril un sens. 




Exemples 

On notera l'utilisation des rapports «deux fois » et « trois fois ». 

1. Poids : les poids (en kg) des aigles. (0 kg représente l'absence de poids et 4 kg est deux 
fois plus lourd que 2 kg). 


A 

2. Ages i les âges (en jours) des aigles (ü représente un nouveau -né sans âge et un aigle de 
60 jours est trois fois plus vieux qu'un aigle de 20 jours). 


( V niveau de mesure est appelé le niveau rapport parce que ta valeur 0 de référence donne un 
sens aux rapports de valeurs* Parmi les 4 niveaux lie mesure, la plus grande difficulté est de distin- 
guer les niveaux intervalle et rapport. Indication : pour faciliter celte distinction, utilisez un simple 
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Dans un de ses livres, Da\ id SaUburg ci le le cas d'une dm Je rétrospective qui montrait que des 
édulcorants artificiels étaient liés ai; cancer de la vessie. Cependant la plupart des sujets malades 
venaient des classes économiquement l’ai h les alors que la plupart des sujets non malades venaient 
de n élusses économiquement supérieure:. En conséquence, les deux groupes mêlaient pas COmpu- 
râbles et cette étude rétrospective était faussée. 

Dans Ses études prospectives, nous avançons dans le temps en suivant des groupes soumis à 
des effets d'un facteur potentiel et d'autres, non soumis a de tels effets, comme un groupe de 
conducteurs qui utilisent des téléphones portables cl un groupe qui n'en utilise pas. 

Les trois définitions précédentes s'appliquent aux éludes ühser rationnelles, mais nous allons 
mai menant nous intéresser au s études expérimentales, [.es résultats des expérienees sont parfois 
faussées a cause de In confusion. 



La confusion survient quand des effets de \nri tbîe.s sont mélangés et que les effets 
indmdueis des variables ne peuvent pas être identifiés (Uest-à-dire que la confusion 
est fondamentalement la confusion des effets des variables) 


Essayez d'organiser vos expériences afin d'éviter la confusion. 

Pur exemple, supposons que nous traitions I 000 personnes ai ce un vaccin pré\ u pour prévenir 
la maladie de Lvnie causée par les tiques. SI un froid précoce fait hiberner les tiques ci que les 
I 000 sujets vaccinés montrent en conséquence une : ai h le incidence de lu maladie de Lynie, nous 
ne pouvons pas savoir si la baisse du taux de maladie est le résultat de Faction du vaccin ou de la 
survenue précoce du froid. La confusion est apparue parce que les effets du traitement par le 
vaccin et les effets du froid sont mélangés. Une meilleure planification expérimentale devrait 
mieux prendre en compte 1 effet du vaccin et l’action du froid pour que leurs effets respectifs soient 
identifiés et contrôlés. 


Contrôler tes effets des variables 

La figure 1 i montre qu'un des éléments clés dans la conception des expériences est de contrôler 
les effets des variables. On peut obtenir ce contrôle avec des techniques comme l'insu, les blocs, 
une étude complètement randomisée, ou une étude expérimentale rigoureusement contrôlée dont 
la description suit. 


Insu En 1954, une étude de masse fut organisée pour tester l'efficacité du vaccin Sàlk pour 
prévenir la polio qui paralysait ou tuait des milliers d entants, Dans cette étude, un groupe trai- 
tement reçut le vaccin Salk alors qu’un second groupe recevait un placebo qui ne contenait aucun 
vaccin. Dans les éludes mettant enjeu les placebos, il y a souvent un effet placebo qui apparaît 
quand lie s sujet montre une amélioration des symptômes (l'amélioration rapportée dans le groupe 
placebo peut être réelle Ou imaginée], Cet effet place h O peut être minimisé Ou comptabilisé à 
travers la technique d'insu (OU d’env?i fgle), technique où le sujet ne suit pas s’il reçoit un ira italien! 
Ou un placebo. L'insu nous permet de déterminer si l'effet du traitement est significativement 
différent de l’effet placebo. Dans une étude simple aveugle, les sujets ne savent pas s : i ts reçoivent 
un traitement ou un placebo. L'étude polio était en double aveugle, ce qui signifie qu’il y avait 
deux niveaux d'aveuglement : (t) les enfants ne savaient pas s'ils recevaient le vaccin Salk ou un 
placebo et 12) les médecins qui faisaient les Injections et évaluaient les résultats ne le savaient pas 


Ai 


nte 


m 


leriaal 


eux-memes, 


Plans cl 'ex pê ri t rtc ce 



13 





*427-5620 


f 931-9823 

265-1 

r 553-1113 

967- 1 

i 434-6193 

611-1, 

L 231-0098 

6 09- J 


WÆ 


s'jgm 




ImcrvicwEr Ici det-leurs 
il - 1 ii s le 1 mmiTniiKS frisées 


ÉchantifFoonage alêat&ire ; 

Chaque membre fie la population a la 

même chance dèbe choisi. Les 
ordinateurs sont souvent utilisés pour 
générer des nombres aléatoires. 

Echantillon nage Blêàtaire simple : 
Un échantillon aléatoire simpfedc n 
sujets est choisi de telle façon que 
chaque échantillon possible de teille o 
dit la même chance d être choisi. 


Er.'haoUllonrmse systématique : 

Pariez uri point dp départ pui$ 
sélectionnez chaque k-ième 
{par exemple chaque 5£r ,H ) 
élément de la population 


ÉctiantilTonrage opportun ; 

Utilisez les résultats qui sent fsci es 
k obtenir 


Échantillonnage slratUlé : 

Subd visez la population en au moins 
deu* sous-groupes différents (ou strates) 
qui partagent les mêmes caractéristiques 
(comme le sexe, la classe d âge) pus 
lirez un échantillon dans chaque 
sous-groupe. 


ÉchantiHFonrageen grappes : 

Divisez la population «n sections 
(ou grappes) puis sélectionnez 
aléatoirement des grappes et 
cho s^ssaz lous les macabres des 
graphes sélectionnées 


Figure 1.2 Méthodes usuelles d’échantillonnage 


H l. ne erreur d’échunli I tonnage est la différence entre Un résulta! d échantillonnage cl le 
vrai résultat de la population : une telle erreur résulte des fluctuations de tirage de 
l’échantillon. 


Une erreur itutt liée h Pécha rilülumuigc survient lorsque les données d L édiantt]lon sont incor- 
rectement collectées, enregistrées ou analysées (comme en sélectionnant un échantillon biaisé, 
en utilisant un instrument de mesure défectueux ou en enregistrant incorrectement les données). 
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Une distribution de fréquences |j$ie les valeurs des données (soit individuellement 
soit pa r intervalles' et le< f réquences correspondantes fou vomptagesl 


Le tableau 2-2 est une distribution de fréquences résumant les niveaux mesurés de cotininc 
des 4U fumeurs listés dans le tableau 2-1. La fréquence pour une classe donnée est le nombre de 
données originales qui sont dans cette classe. Par exemple» la première classe du tableau 2-2 a une 
fréquence de N. ce qui signifie que U des valeurs originales sont entre 0 et 99 indus. 

Nous allons d'abord présenter quelques termes standard uiilisés dans la discussion des üisL"i- 
bu lions de fréquences et nous décrirons ensuite comment les construire et les interpréter. 


Tableau 2-2 DifiïrîhuTjnn de fréquences des ni veaux de i-oliniuie îles fumeurs 

Nixeau de colin me (n^Oul) 

Fréquence (nombre de fumeurs) 

0-39 

11 

1 00-193 

12 

200-209 

14 

300-399 

1 

400-499 

2 



les limites de c lass v i nfér ieu res sont I e s j >1 1 1 a pet ils nombres qt i ï p eu t en t dp pa ne n i r 
aux différentes classes. Le table. tu 2-2 a comme !• imites de classe inférieures 0. 1ÛÛ, 
200, |00 et 4ÛÜ. 

3. es limites de classe supérieures sont les plus grands nombres qui peuvent appartenir aux 
différentes classes. Lt tableau 2-2 a comme limites de dusse supérieures 99* 199, 299, 399 et 499, 

Les frontières de classe sont les nombres utilisés pour séparer les classes. Voici comment on 
les obtient : trouvez J a différence entre 1 1 borne supérieure d’une classe et la borne inférieure 
de la classe suivante. Additionnez lu moitié de cette différence a lu borne supérieure de classe 
pour trouve?- la frontière supérieure de dusse et retranche?, la moitié de- coïte différence à lu 
borne inférieure de classe pour trouver la frontière inférieure de chose, Dan 4 - le tableau 2-2. 
les différences sont de une unité., donc on ajoute et on sousira.it 0*5 aux bornes pour trouver les 
frontières* La première cfas^e a 0,5 et 99,5 comme fronrières, la seconde classe 99,5 et 199.5 

el uïnfii de ililé. 

Las centres de classe sont les po ints situes au milieu de la dusse. Chaque centre de dusse peut 
être trouvé an luisant k>. demi -somme des borne.-» inféneurtvs. eï supérieures de la classe. Dans 
le tableau 2.-2. les centres de classe sont 49,5 149.5 244.5 249,5 e? 449,5. 

La largeur de classe est 'u différence entre deux bornes inferieures consécutives ou deux 
frontières consécutives. Le tableau 2±2 utilise une largeur de classe de 100. 


Les définitions de largeur de classe et de frontières de classe peuvent prêter h confusion. Faites 
attention U éviter l’erreur classique qui consiste h prendre comme largeur de dusse In différence 
entre la borne supérieure et la borne inférieure. Regardez le tableau 2-2 et notez que la largeur de 
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év idem que la distribution de fréquence des fumeurs est très différente de celles des deux autres 
groupes. Parce que les deux groupes de non -fumeurs (exposés et non exposés) ont de très hautes 
fréquences pour lu première classe, il est intéressant de comparer plus avant ces jeux de données 
avec une étude plus fine de leurs valeurs. 


Tableau 2-7 Niveau s de cotiuine pour Les trois groupes 

Niveau de vol in me (ng/ml) 

Fumeurs 

b an fumeurs «posés 

Noei fumeurs non exposés 

0-99 

28^.- 

«5 % 

95 % 

100-199 

30 r ï 

5 % 

0 % 

200-299 

33 % 

3 % 

3 % 

300-399 

-, % 

3 % 

3 % 

400-499 

5 % 

[) % 

0 % 

500-SJU 

0 % 

5 % 

U % 


Intervalles semi-ouverts Les distributions de fréquences présentées dans cette section sont 
très « propres *■ dans ce sens qu’elles considèrent toutes une meme largeur de classe. Il est souvent 
nécessaire d’utiliser des intervalles semi-ouverts comme la catégorie d'âge « 65 ans ou plus Il 
est souvent préférable d'utiliser un tel intervalle qui capture une faible proportion des données de 
l'échantillon plutôt que d’utiliser de nombreuses classes (comme 65-74, 75-84, 85-94, 95-104) qui 
contiennent chacune une proportion vraiment très; faible des don nées. Cependant un intervalle 
semi-ouvert introduit une approximation qui peut devenir gênante quand on doit faire des calculs 
ou un graphique comme ceux présentés dans la section suivante. 


Dans les exereû es i et 2, identifiez Ut largeur de classe, tes centres de dusse et tes frontières de dusse 
P<mr les distributions de fréquences données bernées sur tr jeu de données ! de t'annexe B. 


1. Pression sj stolique uom les hommes 

Fréquente 

90-99 

1 

If >0-109 

4 

110-119 

17 

120 129 

12 

130-139 

5 

140-149 

0 

150-159 

1 


2. Cholestérol des hommes 

Fréquence 

u _)99 

13 

200- 399 

II 

400-599 

5 

600—799 

H 

800-999 

2 

1 000-1 109 

0 

1200-1399 

1 
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Traces tige et feuilles 

Un tracé en fige et feuilles istem^mid-Ieaf) représente les données en séparant chaque valeur en 
deux parties : la tige (le chiffre le plus a gauche) et la feuille (le chiffre le plus à droite}. L’illustration 
ci-dessous montre :m tracé lige et feuilles pour les mêmes hauteurs (en mètres) de peupliers que 
celles représentées dans le dotplot du haut de la figure 2.4. Il est facile de voir comment la première 
hauteur de 3*2 m est séparée en sa tige 3 et sa feuille 2. Chacune des valeurs restantes est découpée 
de façon sirrnlaïre. Les feuille:» sorti ensuite rangées eu ordre croissant. 

Tracé tige et feuilles 


lige (u [i;il l 

feuillsis 1 1.1 i XK ! ut s} 

3. 

19 

4, 

4 

5, 

4 

6 h 

334788999 

7. 

133367 

8. 

0 


« les va Lu fi 3.2 d 3,9 


h!- 3ji valeur c Ri N,(J 


En tournant la page sur la gauche, on peut voir une distribution de ces données. Un grand 
avantage du tracé Lige et jeu il. les est qu’on peut voir la distribution des données et cependant garder 
l’information de la liste originale. Si nécessaire, en pourrait reconstruire la 'iste originale des 
données. Un autre avantage de cctie construction est que cela est un bon ci rapide moyen de trier 
les données, le tri des données étant parfois obligatoire pour certaines procédures statistiques 
(comme pour trouver la médiane, les percentiles, les rangs). 

Les lignes du chiffres dans un tracé tige cl feuilles sont similaires par nature aux barres d'un 
histogramme. Une des recommandations pour construire des histogrammes est que le nombre tic 
classe-* devrait cire compr is entre 5 et. 20 et la même recommandation s'applique aux Ifjcés tige 
et feuilles pour les memes raisons. De meilleurs tracés tige et feuilles sont obtenus en arrondissant 
d’abord les données originales. On peut aussi étendre les tracés pour inclure plus de lignes ou les 
condenser pour avoir moins de lignes en combinant tes tiges, 

Diagramme de Pareio 

Une de ces dernières années, il y a eu 1 1 800 morts accidentelles parmi les résidents américains 
âgés de 15 h 24 an» (d’après des données du Conseil national américain de santé). En voici le 
décompte pur catégorie : armes a feu ( 1 50 1, poison (870), véhicules ü moteur (10 500), feux et 
incendies (240), noyades (7Û0), chutes (210) et autres causes (l 130), Bien que la phrase précédente 
décrive correctement les donnée-, une meilleure compréhension peut être obtenue a Laide d’un 
graphique. Un graphique adapté à ces données est le diagramme rie Parelo qui est un graphique 
en barres pour des données qualitatives, avec les barres rangées dans l’ordre de leurs fréquences. 
Comme avec tes histogrammes, Taxe vertical dans les diagrammes de Pareto représente les 
fréquences ou les fréquences relatives. La plus haute barre est sur la gauche et les plus petites sont 
sur la droite. En arrangeant les barres par ordre de fréquence, le diagramme de Pareto attire 
l 'attention sut les catégories les plus importantes. La figure 2.5 est un diagramme de Pareto qui 
montre clairement que la catégorie des accidents tins a îles véhicules à moteur est de loin la plus 
importante. 


At 
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Explorer les données : cherchez des aspects remarquables du graphique qui révèlent des caracté- 
ristiques utiles et/ou intéressantes du jeu de données. Dans la figure 2.9 par exemple, on voit que 
les soldais mouraient plus de mauvais soins à t 'hôpital que de blessures. 

Comparer tes données : construisez des graphiques similaires qui facilitent la comparaison. Par 
exemple, regardez les dot plots dans cette section et vous verrez que les peupliers traités avec 
fertilisant et irrigation, ont tendance à être plus grands que ceux traités par irrigation seulement. 

Dans les exercices I es 2, répondez aux que nions tpti font référence fi i'hi IsSognunme ci -dessous {figure 
2.1Ü) produis put SPSS et qui représente tes longueurs (mm) datifs de coucous trouvés du ns fes nids 
d\itdrex oiseaux {d après des données de O. M. Lattererde lu bibliothèque de données et histoires DASL) 

I . Tendance centrale Quelle est approximativement la valeur du centre ? C‘ est-il- dire, que l le longueur 
d'rtuf sein hic être proche Un centre de toutes les longueurs montrées dans le graphique ? 

2. P o arc en Sage Quel pourcentage des I 20 œufs ont une longueur de moins de 21,1 25 mm 2 


Figure 2 J U 

Pour Pesetrk e J, ifjhui st? reporter au graphique circulaire ci- joint (figure 2.1 1) des groupa sanguins 
pour un grand échantillon de personnes (d’après des données du grand programme sanguin de New York), 

3* Interpréter un graphique circulaire Quel est approximativement le pourcentage Lie personnes -Je 
groupe A '? Lm supposant que le graphique Loire s pond à un échantillon Je 500 personnes, combien 
approximativement de personnes sur ces 500 sont du groupe A ? 

Groupe B 

Groupe AB 


Figure J JJ 
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Pour trouver la médiane, il faut d abord trier les données puis utiliser l’une des deux procédures 
suivantes : 

t. si le nombre de valeurs es; impair, la médiane est la valeur située exactement au milieu de 
la liste : 

2. si le nombre de valeurs est pair, la médiane est obtenue en prenant la moyenne des deux 
valeurs du milieu. 



Exemple Mesure du taux de plùtttb dans Pair. On liste ci-dessous des valeurs 
mesurées de plomb (en ^ 2 /m 3 ). Trouvez 3a médiane pour cet: échantillon, 


5,40 Llü 0,42 0,73 Ü,4S l,M) 

Solution Triez d’ahürd les valeurs par ordre croissant ; 

0,42 0,48 0,73 l t 10 1,10 5,40 

Comme il y a un nombre pair (fi J de valeurs, la médiane est obtenue en calculant la moyenne 
des deux valeurs du milieu, soit 0,73 et 1,10. 


0,73 + 3,10 1,83 rtnie 

Médiane = = = 0,015. 


Tl faut noter que la médiane 0,91 5 /ig/m est très diffère nie de la moyenne L,53R qu'on avait 

trouvée dans l'exemple précédent. Cette grande différence est due à l'effet de la valeur 5,40 sur la 
moyenne. Si cet tu \ a leur extrême était ramenée à 1,20, la moyenne descendra it à 0,838 /jg/ 111 1 alors 
que la médiane ne changerait pas. 



Exemple Mesure du taux de plomb dans l’air, Reprenez l’exemple précédent en 
ajoutant la valeur 0 66 qg/nr’ enregistrée un autre jour. 


Solution Triez d'abord les valeurs par ordre croissant ; 

0,42 048 0,73 1,10 1,10 5,40 

Comme il y a un nombre impair (7) de valeurs, lu médiane est la valeur située exactement au 
milieu, soit ÜJ3 fig/m-r 


Après avoir étudié les deux exemples précédents, la procédure pour trouver la médiane dev mit 
être claire. Il dev rait aussi être clair que la moyenne est très affectée pur les valeurs extrêmes alors 
que lu médiane est peu affectée. Parce que la médiane n’est pas sensible aux valeurs extrêmes, 
elle est souvent utilisée pour des jeux de données avec un nombre relativement faible de valeurs 
extrêmes. Par exemple, Se bureau US du re censément a rapporté que le revenu médian annuel par 
foyer était de 36 078 8. Lu médiane a été utilisée parce qu'il y avajl un pci il nombre de foyers 
avec des revenus vraiment très importants. 
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Tablruu 2- M 1 (suite) Cümpanuson de la moyenne, de la médiane, du mode cl du midrange 

Mesure de 
tendance centra Eü 

Existence 

iireiid toutes les 
valeurs en compte ? 

Affectée par les 
valeurs extrêmes 

Avantages et iuconvën Lents 






Mayenne 

en islfi toujours 

oui 

oui 

utilisée dans tout le livre ; 
fonction rte bien avec 
beaucoup de méthodes 
sàat i si i l| nés 






Médiane 

existe toujours; 

non 

non 

auvent un bon choix 
s'd y a quelques valeurs 
extrêmes 

Mode 

peut ne pas ck , ;tcr : 
1 1 peut ) avoir 
plusieurs modes 

non 

non 

adaphie au niveau nominal 

M idrunge 

existe toujours 

non 

oui 

très .sensible aux lu leurs 
extrêmes 

("ü ni me ma ires généreux ; 

Pour lia ni semble de données à pull près symétrique avec un seul mode, la moyenne. ta médiane et Se midrange uni 
icndisncc à être Tes mêmeSr 

Pour un ensemble de données dairoiuem asyméirl-qutx il serait bon de duiiner ii Lu toi s la moyenne ni la médiane 
- [ .ci moyenne csl rchtïvcmcnl (inblr, f!'es|- à-dirc que quand des échantillons ko ni lires de In me me popnlalion. les 
moyennes des éc-luiiUilLuns ont tendance à être plus *• consi.’, t antes » que les autres me suie s de lendauee centrale 
Tconsisiànics au sens miles moyen ne s des cl liant il Ion s d'une même popelfU ion v:wjcni moins que ies amies m.cstircs 
de tendance centrale).. 


Asymétrie 

Une comparaison de la moyenne, de la. médiane et du mode peut révéler des informations sur la 
caractéi istique d'asymétrie, définie ci-dessous et illustrée par la figure 2.12. 



(a) Asymétrique gauche 
(asymétrie négative) : 
la moyenne et Sa médiane 
sont à la gauche du mode. 


(b) Symétrique 
[p&s d'asymétrie) ; 
la mu-y-gnne, la médiane 
et mode sont les mêmes 


(c) Asymétrique droite 
(asymétrie posilive} : 
la moyenne et la médiane 
sont à la droite du mode 


Figure 2,11 Asymétrie 



Unu dLsrnhmion de données est symétrique >i lu moine gauche de lliUtogramme 
e>t à peu près r image eu miroir de Eu moitié droite Une di>rrïbatjoîi de données 
est ns y métrique si elle ifest pas symétrique et si elle s’étend plus <uv un eùté qu'un 
autre/ 
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Pour calculer retendue, soustrayez simplement la plus petite valeur de la plus grande valeur. 
Pour les temps d'attente de sa file unique, letenduc est 7 - 4 = 3 min. Les temps d’attente des files 
multiples ont une étendue de 13 minutes et cette valeur [dus grande suggère une plus grande 
variation. 

L’étendue est très facile à calculer mais, parce qu'elle dépend uniquement du minimum et du 
maximum, elle n’est pas aussi utile que les autres mesures de dispersion qui utilisent toutes les 
valeurs. 

Écart type d'un échantillon 

L’écart type est la mesure de variation qui est généralement la plus importante et la plus 
utile, Nous la définissons maintenant, mais pour bien la comprendre vous devrez étudier lu 
so us-siïctifln * Interpréter el comprendre l'écart type » que vous trouverez, un peu plus loin dans cette 
se en un. 



L’écart type de l'ensemble des valeurs ;l'mt échantillon est une mesure de dispersion 
des valeurs autour de lu moyenne. Il représente à peu près la dé', iation moyenne des 
valeurs par rapport d la moyenne et qui se calcule à L'aide des formules 2 3 ou 2.4 


Z «■ Fdrmule 2.3 

j m - *> 2 

J \ n § 1 

Écart type de Lécha ni illop 

Formule 2.4 

1 Y o.-i) 

formule avec raccourci pour l'écart type 
de réchant il Ion 


Un peu plus loin dans celte section nous discuterons le bien -fondé de ces formules* niais pour 
Pinstunt nous vous recommandons d’utiliser la formule 2.3 sur quelques exemples, puis d’ap- 



La plupart des calculatrices scientifiques sont conçues pour que vous puissiez saisir une liste de 
valeurs et obtenir automatiquement l'écart type. Pour l'instant, nous donnons des propriétés impor- 
tâmes qui sont des conséquences de la façon dont l'écart type est défini. 


- L’écart type est une mesure du dispersion de toutes les valeurs autour de lu moyenne. 

L .u \ I c u r de 1 ccy rl (y 1 5e ,v es i en gc nefu posi me Lie est n u Ile ll ri iq uemen i s i ion L es les di. m né e s 
ont la même valeur. Déplus, de plus grandes valeurs de s indiquent une plus grande variation, 

- La valeur de l’écîir i type s peut augmenter de façon importante si ou inclut une ou plusieurs 
valeurs extrêmes (valeurs des données qui sont vraiment très loin des autres). 

- Les unités de l’écart type s (comme les minutes, les mètres, les kg et ainsi de suite) sont les 
mêmes que les unités des données originales. 


: B EXEMPLE, L lïlisnlÊon de in lornm le 2.4. 



AüAJPTÀTttïN Supposez, que vous ayez les 3 valeurs 1* 3 et 14. Quel en est Pécari type 
h. l’aide de la formule 2,4 ? 
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la distribution mais nous proférons sacrifier la précision au bénéfice de la simplicité. De plus, on 
pourrait utiliser trois ou même quatre écarts types au I ieu de deux, ce qui était uti choix arbitraire. 
Mais on \eu1 une règle simple qui mous permette iJ : interpréter les valeur* d’écart type ; d'autos 
méthodes que nous verrons plus lord permctlri >n.t de produire des résultats [dus précis. 


Recette de t'étendue 

Pour estimer une valeur de Pécurt type s : pour une anproximalicrn rapide de l'écart 


type, utilisez 


étend ue 


S. w 


où étendue = maximum - minimum. 

Pour Interpréter une valeur connut de Pécari type s : si l ‘écart i) pe ,y l-sl connu, utilisez., 
pou» trouver des approximation^ rapides du minimum < usuel » et du maximum « jjisue] des 
.valeurs de réchaud S Ion, les expressions : 

minimum « usuel » = moyenne 5 2 •< écart type ; 
maximum - usuel * = moyenne + 2 x écart type 


Quand tous calculez l'écart type à l'aide de la formule 2,4, vous pouvez utiliser i a recette de 
retendue pour vérifier votre résultat mais vous devez réaliser que même si l'approximation peut 
vous amener au voisinage de la réponse* elle peut aussi en être assez éloignée. 



Exemple Niveaux de cotinine des fumeurs. Utilisez ht recette de l’étendue pour 
trouver une approximation rapide Je l'écart type de l'échantillon des niveaux de cotinine 
pour les 40 fumeurs du tableau 2-1. 


Solution À l’aide de cette recette on calcule l’étendue et on do Ke par 4. Si on parcourt les 
données, on voit que le minimum est fi et le maximum 491. donc l’étendue est 491, L’écart type 
est approximé ainsi : 

étendue 49 1 

j * - — = 122.75 » 123. 

4 4 


Interprétation Ce résultat est très proche de la valeur exacte, qui est 119,5, obtenue avec la 
formule 2 J ou 2.4, Il ne faut pas espérer que la recette marchera aussi bien dans tous les autres 
cas. 


L’exemple suivant est particulièrement important pour illustrer un moyen ^interpréter la 
valeur de ï écart type. 


•J Exemple Circonférence crânienne des filles. D'anciens résultats d’une enquête n-atio- 
^ j f nale américaine de santé suggèrent que la circonférence crânienne d’enfants l.fïllcs.) de 
2 mois est en moyenne de 40,05 cm avec un écart type de 1.64 cm. Utilisez la recette 
d’étendue pour en trouver le minimum usuel et le maximum usuel. Ces résultats pour- 
ra lent être utilisés par un médecin pour détecter une circonférence crânienne « inhabituelle » et 
qui pourrait être due ii une pathologie comme P hydrocéphalie. Déterminez ensuite si 42,6 cm 
pourrait être considérée comme inhabituelle ». 


Auteurs rechlelijk beschermd m ateriàaj 


Mesures de dispersion 



2 S Exercices 


49 


Pourquoi diviser par n — 1 ? 

Après avoir trouvé les valeurs individuelles Lv-Jv, nous les combinons en prenant leur somme 
puis nous en calculons la moyenne en divisant paru - 1. On divise paru - I parce qu'il y a seule- 
ment a - I valeurs indépendantes. C’est-à-dire que pour une moyenne donnée, on peut affecter 
des valeurs arbitraires à seulement h - j valeurs avant que la dernière valeur Eté soit déterminée. 
On peut montrer que ta division par n - I rend tes variances d'échantillons s ' plus proches de la 
variance de la population rr- alors que la division par n a tendance à générer des variances d'échan- 
tillons qui sous-estiment lu variance de la population rr . 

Une conséquence importante du fait que l'écart type utilise la racine carrée de la somme de 
carrés est que l'écart type est exprimé dans les mêmes unités de mesure que les données originales. 
Par exemple, si les temps d’attente sont en minutes* l'écart type de ces temps sera aussi en minutes. 

Apres avoir étudié cette section, vous devriez avoir compris que l’écart type est y ne mesure 
de dispersion entre les valeurs. Â partir de données d’échantillon vous devriez être capable de 
calculer la valeur de l’écart type et d’interpréter les valeurs d’écart type que vous calculez. Vous 
devriez savoir que pour des jeux de données courants, il est inhabituel pour une valeur d'être à 
plus de 2 ou 2 écarts types de la moyenne. 


Dana les exercices t à 4, titmvez t'étendue, In variante es i 'et- art type pour tes données décisantiUvn 
tuai nies, fj .s'a ça des même ■> données que pour ta section U, 4 <>ù vu cherchait des mesures de Tendance 
centrale. Ici. on cherche des mesures de dispersion. 

î, ( Uthation du tabac dans les JUins pour enjiints Dans «Tobacco and Aleohul ( se in U-ftaled Childreifs 
Âniniiiîed Films » par Goldstein, Sühel et Newman {Journal of ihe American Medical A ssociation. vut, 
281. iv 12), l;i duree fen secondes) de-, scènes montrant 1 utilisation du tabac acté enregistrée pour les 
lILins. d'animal ion des studios Universal Six de ces durées surit indiquées ci-dcsso us, 

« 223 0 176 0 54 B 

2* Indice de masse curpnreUe Durant F enquête nationale américaine de santé. l'indice de masse corpo- 
relle i.JMC) a été mesuré pour un échantillon de femmes. Quelques-unes des valeurs du jeu de données 
I de l'annexe B sont listées ci-dessous. A partir de ces données d’ échantillon, est- ce qu'un 1MC de 
34, 0 peut êtie considéré comme <■= inhabituel » 7 Ci pourquoi ? Aide ■ lu i lisez la recette tic l'étendue. 

19,6 23 f 8 19.6 29,1 25.2 23,4 22,tJ 27.5 

33,5 20 .6 20,9 J 7.7 24,0 2B.V 37,7 

3. Accident. s mortels chez te s motards. On liste ci -dessous les âges de motards quanti ils ont été i aorte I- 
le ruent blessés dans des accidents de lu circulation (a partir de données du ministère américain des 
Transports). Quelle comparaison peut on faire entre la dispersion de ces âges uvcc celle des âges des 
motards dans la population générale ? 

17 38 27 14 13 34 16 42 28 

24 40 20 23 31 37 21 30 25 


4. Mesures de tension Quatorze etudiants en deuxième année de médecine â I hôpital de Rellevue ont 
rites uré lu tension d'une même personne. Les valeurs systoliques fen mitilQ) sont listées ci-dessous. 
Que suggèrent les mesures de dispersion de ces données sur leur précision ? 


138 

130 

135 

140 

m 

130 

1 44 

143 


120 

125 

120 

140 

130 

150 
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Quart îles et percent liés 

Depuis la section 11,4, nous savons que la médiane d’un ensemble de données est lu valeur 
du milieu et donc que 50 % des valeurs sont inferieures ou égales à la médiane et que 5 U % 
lui sont supérieures ou égaies. De la même façon que la médiane divise les données eu deux 
parties égales, les trois quart île s, notés (3.. Q 2 et partagent ies données triées en quatre parties 

égales. 

Voici les descriptions des trois quartiles : 


Q | (premier quartile) : sépare les premiers 25 % des données triées des autres 75 %. Pour 

être plus précis, au moins 25 % des données triées sont inférieures 
ou égales à (?, et au moins 75 % des valeurs sont supérieures ou 
égaies à Q v 

Q 2 (deuxième quartile) : c’esi lu même chose que lu médiane* sépare les premiers 50 % des 

données triées des autres 50 %, 


Q\ (troisième quartile) : 


sépare les premiers 75 % des données triées des autres 25 %, Pour 
être plus précis, au moins 75 % des données triées sont inférieures 
ou égales à et au moins 75 7c des valeurs sont supérieures ou 
égales à Qy 


Nous décrirons une procédure pour trouver les quartiles après avoir discuté des percentiles. II 
a y a pas d'accord général sur une seule et même procédure pour calculer les quartiles et des 
programmes informatiques différents donnent souvent des résultats différents. Par exemple, si 
vous utilise/ les données I, 3, 6, 10, 15, 21, 28 ci 36* vous trouverez ces résultats : 



a, 

Qi 

Qi 

5TÀTD1SK 

4.5 

12.5 

24.5 

SPSS 

3J5 

12,5 

2f>*25 

SAS 

4,5 

12,5 

24*5 

Ested 

5.25 

L2.5 

22.75 


Si vous utilisez une calculatrice ou un ordinateur pour Ses exercices impliquant des quartiles, 
tous risquez de trouver des résultats légèrement différents des réponses données à la fin du 
livre. 

De la même façon qu'il y y trois quartiles séparant les données en quatre punies égales* il y a 
aussi 99 percentiles, notés P v I /%* qui partitionnent les données en 1UÛ groupes avec à peu 
près I 7c des données dans chaque groupe, Les quartiles et les percentiles sont des exemples de 
quanti les - ou fractilcs - qui partitionnent les données en groupes avec approximativement autant 
de valeurs, 

1 .y procédure pour trouver 1c percentile qui correspond ü une valeur particulière x est assez 
simple, comme indiqué dans l’expression suivante. 


Percentile de valeur .t = 


Nombre de valeurs inférieures à v 
Nombre ro les, I de valeurs 


x ion. 


A 


irsr 
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Dans les exercices 6 et 7, utilisez les 40 niveaux i ries de cotinine des fumeurs listés dans le tableau 
2-lÛ- Trauvez le pen enfile correspondant (tu niveau de evî imite indiqué. 

ii, 149 
7. 35 

Otais les exercices H à II, utilisez fes 40 niveaux triés de cotinine des Jumeuix listes dans le tableau 
2-10 . Trouvez le percentile tut le quartite indiqué. 

& ï\u 
% P 7J 
ia P n 
IL P ( 

il, .\iveaux de cotinine des fumeurs Utilisez les 40 niveaux triés de cotinine des fumeurs listés dans 
le nibseju 2- 10, 

a. Trouve/, la distance inturqnartile. 
h. Trouvez le inidquartile- 
c. Trouvez l'étendue 1Ü %-90 %. 

d- Est-ce que P 5l/ - Q : 7 Si oui, est-ce que P 5Û vaut toujours Q 2 7 

e. Est- ce que Q. — { Q . f Q-.)/2 ? Si ou s. csl-ce que (7 : vaut toujours ((9,-1- Q--V2 7 


IT,7 Analyse des données exploratoires 

Ce chapitre présente les outils de hase pour décrire, explorer et comparer les données, et le point 
central de cette section est 1 exploration des données. Nous commençons cette section par Sa 
définition de l’analyse des données exploratoires, puis nous introduirons les valeurs extrêmes, les 
résumés en 5 nombres et les boîtes i\ moustaches. 



[Alita lyse des données exploratoires est le procédé par lequel on utilise des outils 
stylistiques {comme les graphiques, les mesures de tendance centrale et de disper- 
sion) pour explorer les jeux de données de façon à comprendre leurs caractéristiques 
importantes. 


Rappelez-vous que dans la section II. I nous a\ ions listé cinq caractéristiques importantes des 
données en commençant par ( I) la tendance . eut ru le, il) la dispersion et (3) la nature de la dis tri 
but ion. On peut appréhender ces caractéristiques en calculant les valeurs de la moyenne et de 
récar t type et en construisant un histogramme. El est en général important d’aller plus loin pour 
identifier îles traits remarquables, et spécialement ceux qui pourraient perturber fortement les 
résultats et les conclusions. Un de ces traits est la présence de valeurs extrêmes. 


Valeurs extrêmes 

Une valeur extrême est une valeur située très loin de soutes les autres valeurs. Par rapport aux autres 
valeurs, cette donnée est très à (écart Quand on explore un jeu de données, on doit considérer 
les valeurs extrêmes parce qu’elles peuvent révéler des informations importantes et affecter forte- 
ment les valeurs de là moyenne et de l’écart type, de meme qu elles peuvent déforme]' un histogramme. 
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La description précédente des houes à moustaches présentait les boîtes à moustaches sqrtekt- 
iules; (ou régulières), Emus quelques logiciels statistiques fournissent des Imites h moustaches 
modifiées qui uumlrefM les valeurs ex trente s comme des points spéciaux (comme dans le graphique 
de SPSS j Jour les niveaux île cholestérol des fenil ne s}. Pur exemple, Minitah utilise des astérisques 
pour idemifier les points qui sont exe epr ion ne] s parce qu’ils sont plus grands ou plus petits que h 
plupart des autres points, Le critère spécifique de Minttab est de mettre des astérisques pour les 
points qui représentent des valeurs plus petites que Q - U5 x (£> 3 - Q]) ou plus grandes que 
Q. + 1,5 x (Q 3 - Q } ) comme dans l’exemple suivant. Une autre approche est d’utiliser des petits 
cercles pleins pour le.s « faibles » valeurs extrêmes et des petits cercles vides pour les « fortes ■* 
valeurs extrême* définies comme suit. 

Faibles valeur? extrêmes î tracées comme des petite cercles pleins) : valeurs en dessous 
de s2. Ou au-dessus de Q 3 de plus de Lô x mais de moins de 3 x (Q 3 - (jf 

Fortes valeurs extrêmes (tracées comme des petite cercles rides) : valeurs cri dessous tic Q | 
ou au-dessus de Q$ de plus de 3 x (y. - ( 3 ,). 



Exemple Est-ce que les hommes et les femmes cnit les mêmes rythmes cardiaques ? 

Il a souvent été mentionné qu’il y a des différences physiologiques entre: les hommes et 
les femmes. Les hommes ont tendance à être plus grands et plus lourds que les femmes. 


Mais, y a-t-il une différence pour le rythme cardiaque ? Le jeu de données 1 de l'annexe B liste 
les rythmes cardiaques pour un. échantillon de 40 hommes el un échantillon de 40 femmes. Elus 
liird dans ce livre nous décrirons des méthodes statistiques importun les qui seront nsi Usées pour 
tester formellement des différences, mais pour l'instant nous allons explorer les données pour voir 
ce que nous pouvons apprendre. Même si nous savions comment utiliser ces méthodes, il serait 
sage d'explorer les données avant d’utiliser les procédures formelles. 


Solution Commençons par examiner les éléments clés de tendance centrale, dispersion, valeurs 
extrêmes et cha tige ru eut (ceux de la liste a TDD VT » introduite dans la section II. I). Les affichages 
suivants (ligures 2,21,. 2.23 et 2.24) montrent des graphiques créés par Minitab, SPSS et SAS. 

On liste ci-dessous les mesures de tendance centrale (moyenne), de dispersion (écart type) et le 
résumé en ? nombres pour Ses rythmes cardiaques du jeu sic données 1. 



Figure 2.22 MINITAB Figure 2.23 SPSS 
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Esl-ce que Mende! avait tort ? 

Quund Gregor Menti el a mené ses fameuses expériences de génétiques avec des pois, un des 
échantillons des croisements a été obtenu en croisant des pois à gousses vertes et des pois à 
gousses jaunes. Cette lignée comportait 30 pois. Parmi ces pois,42K avait des gousses vertes 
ci 152 des gousses jaunes. À partir de sa théorie des gènes. Mende! s’attendait à ce que 25 % 
des pois aient des gousses jaunes. Toutefois, avec 42tt gousses vertes et J 52 gousses jaunes, le 
pourcentage tic gousses jaunes est de 26,2 ( ?r. Comment peut-on expliquer cette différence ? 
Celle différence esl-dic suffisamment importante pour suggérer que les 25 % de Mende] sont 
incorrect ? Si nous ignorions la théorie de Mende I et que nous utilisions seulement les résultats 
de l’expérience. quelle estimation de gousses jaunes pourrions-nous attendre d’expériences 
similaires ? Et que pouvons-nous dire sur la précision de cette estimation ? 

Ce chapitre présente les concepts statistiques nécessaires pour répondre à de telles questions. 
Nous analyserons les résultats de l’expérience de Mendel et nous apprendrons beaucoup à 
propos de l'estimation des paramètres d'une population en général. Bien que ces données impli- 
quent l'estimation de la proportion d'une population* ce chapitre considérera aussi l’estimation 

de la moyenne et de la variance d’une population, 


Problème 
dv chapitre 
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Valeurs critiques 

Les méthodes de ce chapitre et de nombreuses nu nés méthodes statistiques des chapitres suivants 
incluent Putilrntion d’un score normalise, note qui permet de distinguer les statistiques d'échan- 
tillon qui peu vêtit vraisemblablement survenir de celles qui ne le peuvent pas. 



Lue dans la labié A-2 
(correspond à une aire de l - a/2) 

Figure 3*1 Valeur critiqué x a/1 pour lu loi normale standard 


Un tel score est appelé une va f eut y critique (définition ci-dessous). Les valeurs critiques sont 
basées sur les observations suivantes : 

! . sous certaines conditions* la distribution de IVchunl il Ion peut être appmxunée par u loi 
normale comme dans h figure 3-1 ; 

2. les proportions d’échantillon ont une chance relativement faible (avec une probabilité notée 
«) de tomber dans Lune des deux queues gris foncé de la figure 3.1 ; 


3. si on note a/2 l'aire dé chaque queue gris foncé, on voit qu'il y a une probabilité totale a 
que la proportion de réchaud lion tombe dans hune de ces deux zones gris foncé ; 

4 il y a donc une probabilité de 1 - a que Sa proportion de réchantUlon tombe dans la zone 
intérieure gris clair de la figure 3.1 ; 


5. le score -z qui sépare la région de lu queue droite esL noté cou ru ttl ment z lt! ■ et On s"y réfère 
comme la valeur t ni /que parce que c'est la frontière qui sépare les proportions d'échantillon 
qui peuvent vraisemblablement survenir de celles qui ne le peuvent pas. 


Ces observations peuvent être formalisées comme suit. 


1 Notations pour la va leur critique 

La v oieur critique • es; la valeur y positive à la frontière verticale qui sépare une .lire 
de a/l chas la quéuc droite de lu loi normale standard. La valent ... est la valeur à 
la frontière verticale qui sépare une aire de n/2 daps la queue gauche. L’indice aî2 est juste la 
pour rappeler Lue le seore-z dlj im ite des aires de œÆ 


; | Laie valeur critique est un nombre sur la frontière séparant 3e- statistiques d'échan- 
I L tillori qui peuvent vraisemblablement survenir de celles qui ne le peuvent pas Le 
nomme üSt une videur cri tique qui est en score-i et délimite des aires de ail pour 
la loi normale standard (voir figure 3.1). 
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appartient à Tinter va Ile [0,226 ■ Ü„29K[. Ce] a est 11 lustré par la figure 33. Le premier intervalle de 
confiance de celte figure est celui a’.ec l'expérience du problème introductif mais les 19 nuire s 
représentent des échantillons hypothétiques. Avec un niveau de confiance lie 05 vê, on. s'attend à 
ec que 19 des 20 échantillons contiennent lu vraie valeur de p et lu figure 3-3 le montre, aveu 
19 intervalles qui contiennent/? et un seul qui ne la contient pas. 


Intervalle de confiance 0.226 < p < 0,298 
(d’après les données du problème introductif) 



Raison d'être df la marge d'erreur. Parce que la loi de l’échantillon est approximativement 
normale (car Les conditions np 5 et nq 2- 5 sont satisfaites), on peut utiliser des théorèmes 

probabilistes pour conclure que p et o sont donnés par p = np et a = Jnpq, Ces deux paramètres 
sont en rapport avec n essais, mais nous les convertissons en « paressai » en di\ isant par w comme 
suit : 


Moyenne des proportions d’échantillon : 


Écart type de-; proportions d'échantillon : 

Le premier résultat peut sembler tri\ ïüI parce que nous avions déjà stipulé que la \ raie propor- 
tion de lu population était p. l.e second résultat est moires évident et il est utile pour décrire lu 
marge d’erreur £, mais nous remplaçons le produit pq pur pq parce que nous ne connaissons pas 
encore la valeur de p. La formule 3.1 pour la marge d’erreur reflète le fait que p a la probabilité 
1 - a d’être à moins de z^^pq / fi de p. L'intervalle de confiance pour p fourni précédemment 
reflète le fait qtul y a une probabilité 1 - a que p diffère de p de moins que la marge d erreur 

E ~ z a tz4pîl ! «■ 



Déterminer la taille d’échantillon 


Suppose/ que l'on veuille collecter des données en i ue deslimer la proportion d'une population. 
Comment savons -nous combien d'ilcnis d'échantillons il faut obtenir ? Par exemple, suppose/ que 
nous voulions estimer la proportion de f.lles nées pour des jumeaux, triples, quadruplés, quintuplés 
et sextuplés. Combien faut-il observer de tels enfants pouf avoir une estimation raisonnable ? 


Auteurs rechlelljk bescherrnd m ateriàaj 


Us! ï mer la proportion d’une population 


77 


10.3 Estimer la moyenne d'une population ; cr connu 

Omis Ni section I ] 1.2 nous avons introduis ['estimation pimciuelle et fin tenu] le de confiance 
comme des outils pour trouver lit proportion d'une population u l’aide de la proportion de l'échan- 
tillon. Nous avons aussi montré comment déterminer la taille minimale requise de l'échantillon 
pour estimer une proportion de population. Dans cette section, nous allons à nouveau discuter 
d’estimation ponctuelle, d'intervalle de confiance et de détermination de taille d’échantillon mais 
notre but maintenant est d’estimer la moyenne y d'une population. Les estimations de moyennes 
de population sont souvent extrême ni eut importantes. Par exemple, d'importantes questions 
comme celles-ci peuvent eL:e traitées à t’aide des méthodes de celle section et de la suivante : 

- quelle est ta durée de vie moyenne des aigles chauves aux États-Unis ? 

- quel est le poids moyen des éléphants au Kenya ? 

- quelle est la production moyenne de lait de vache obtenue dans l'état de New York ? 

Les conditions suivantes s’appliquent aux méthodes introduites dans cette section (il y a 
d’autres conditions pour d’autres procédures similaires). 

Û Conditions requises pour estimer p quand cr est connu 

î:WÏ:éehumulon est un échanti I k*n aléatoire simple doux les échantillons de la même 
taille tù la même chance d’être .$élt\Cdonnés;L 
2, La valeur de fée a ri type <r de la population est connue, 

.1. 1,,’une des deux ou les deux jondïtionf* suivantes .sont satinai tes. . la population est normale' 
ment distribuée ou n > K). Parce qu^b ne connaît pas toutes les ialeurs de la pq&ulaiion, on 
peut tenter Sa normalité à l’aide d'oui -K comme les histogrammes, les tracés de quantfl.es 
normaux et ;lcs valeurs extrême^ trouvées pour les données d'échar. îrtfaft, 

Quand on utilise les procédures de cette section pour estimer la moyenne inconnue p d’une 
population, les conditions ci -dessous indiquent que nous devons connaître la valeur de l’écart type a 
de la population. Il serait cependant très inhabituel de pouvoir connaître <7 sans connaître p. Après 
tout, la seule façon de connaître a, c’est de le calculer a partir de toutes les valeurs de la popula- 
tion, donc le calcul de u serait également possible et si on peut, connaître la vraie valeur de u, il 
n'v a aucun besoin de résumer. Rien que les méthodes pour l'intervalle de confiance de cette 
section ne soient pas très réalistes* elles révélent ; es concepts de hase d’importants raisonnements 
statistiques et elles sont la hase pour la détermination de la taille de fée hanïi lion vue plu ^ lard 
duras cette .section. 

Condition de normalité. Dans cette section, nous utilisons la condition qu’il faut disposer 
d’un échantillon aléatoire simple, que la valeur de <7 est connue et que soit la population 
est normale* soit h > 30. Techniquement, la population n’a pas besoin de suivre une loi exactement 
normale mais elle devrait être approximativement normale, ce qui signifie que sa distribution est 
en gros symétrique avec un seul mode et pas de valeurs extrêmes, le sic/ la normalité en construi- 
sant rhistogrumine des données de l’échantillon et décide/ ensuite s’il est a peu près en eloehe. 
Un tracé de quanti le s normaux peut aussi être construit mais les méthodes de cette section sont 
dites robustes, ce qui signifie que ces méthodes ne sont pas fortement affectées si on s’éloigne 
de la normalité, pour peu qu’on ne s’en écarte pas do façon trop extrême. On peut en général 
considérer que la population est normale lorsque les données de l'échantillon confirment qu'il n'y 
a pas de valeurs extrêmes eL que l' histogramme a une forme qui n'est pas trop éloignée de celle 
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ün doit d T abord vérifier que les conditions requises sont satisfaites. À partir de renonce, on 
sait que J échantillon est un échantillon aléatoire simple, On sait aussi qu'on peut supposer que 
a = Û,34 fl C. La troisième condition est d .‘avoir « soit une loi normale, soit n > 30 ». Parce 
que la taille du l'échantillon n esi 106, on a n > 30 donc on n'a pas besoin du tester si l'échan- 
tillon su êl une loi normale. Les conditions requises sont satisfaites et on peut donc appliquer 
la formule 3 A □ 

a. Le niveau Je confiance 95 % correspond à « ■= 0,05 donc z ur — 1,96. 1 a marge li erreur E 
vaut donc fW décimales supplémentaires seront utilisées pouf minimiser les erreurs d’arrondi 
des bornes de l'intervalle de confiance de la paFtie b.) ; 

E = z an Z= = 1,96 '-Ü= 0,06472649. 

*JTi VÏÔ6 

b. Avec ,v = 36,78 et F- = 0,06472649, voici V intervalle de confiance : 

x - Fl < f.1 < x + E 

36,78 - 0,06472649 < u < 36,78 + 0,06472649 
36,72 < xi < 36,84 (arrondi h deux décimales comme pour .Y) 


ÏNTtïKPHÉTAnoiN Ce résultat pourrait aussi être présenté comme 36,78 I 0.06. A partir de 
réchaud] Ion avec n = 106. x - 36,78 °C et en supposant que rr = 0,34 U C, P inter val le de confiance 
a 95 7c pour la moyenne ft de La population est 36,72 < jtf < 36.84. Cela signifie que si on sélec- 
tionnait de nombreux échantillons de taille 106 et qu'on construisait les intervalles de confiance 
correspondants, 95 % d’entre eux contiendraient effectivement la vraie valeur n de la moyenne 
de la population. 


i] est il noter que l’intervalle de confiance [36,72 : 36,84] ne contient pas 37,00 qui est la valeur 
communément admise pour le corps humain, A partir de ecs résultats, il semble peu probable 
que 37,00 soit la température moyenne correcte du corps humain pour la population totale. 


m 


Kxiisttn cPêtre de l'intervalle de confiance. L’idée de base derrière La construction des inter- 
valles de confiance est liée au théorème de la limite centrale qui indique que si on a un échantillon 
aléatoire simple d'une distribution normale ou un échantillon aléatoire simple de taille n > 30 de 
réimporte quelle population, la distribution des moyennes d'échantillon est approximativement 
normale, de moyenne u et d'écart type ff/Æ. Le format de l’intervalle de confiance est issu de 
l’équation utilisée da^s ce théorème. Dans l'expression z = (.7 - u-)/g-, il faut remplacer g- par 
&/Jn et trouver ti, soit : 


f-t - x - z 


4n 


"H 

À raide de valeurs positives et négatives de 
utilisé. 


on trouve les bornes de l’intervalle de confiance 


Considérons le cas spécifique du niveau de confiance 95 4L soit a = 0,05 et z. n ^. = 1,96, Pour ce 
cas, il y a une probabilité 0,05 que la moyenne de Léchant! I loti SOU distante de ju de plus de 1,96 écart 
type (ou z. pcr/yfn que l’on fiole E). Inversement, il y a une probabilité de 0,95 que la moyenne Je 


Estimer la moyenne d'une population i a connu 
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Détermination de fa faille de Féchantillau, Dan\ le* exercices ? et S. utilisez la marge d 'erreur fournie, 
le niveau de confiance et lYrart type cr de fa papulation poitr trouver la taille d'echanfUton miiùmaU' 
reqai.se pour estimer ta moyenne jt inconnue de fa papulation. 

7. Marge d'erreur ; 125 5- niveau de confiance : 95 %, ü = 500 5. 

8, Marge d'erreur; 5 min. niveau de confiance , 90 ’4 , a = 48 min. 

Interprétation tien résultats* Dam te* exercice* 9 et 10, reportez-vou* à hage ci- des* tou s {figure 

3.5} dan intervalle dû confiance ii 95 % construit à partir des méthode,'* de celle section. L'affichage 
de* résultat* d'échantillon correspond à ir n échantillon de 80 nivttaux de cholestérol seteesioune* aléa- 
toirement pour SV adulte*. 


Z Internai 
(262, 09, 374- il) 
x«3Î8. i 
n=8l5 


Figure 5-5 


fl, Identifiez l'estimation ponctuelle de la moyenne u de lu population. 
If>, Lxpj ïmcz l 1 intervalle de confiance sous lit forme x ± L, 


111*4 Estimer la moyenne d'une population : tr inconnu 

Dans la section 11 J. 5 nous avons présente des méthodes pour constru ire un intervalle de confiance 
qui estime la moyenne u inconnue d’une population mais on ne considérait que des cas pour 
lesquels 1 écart type cr de la population était connu. Dans cette section, nous allons présenter 
une méthode pour construire un intervalle de confiance qui estime la moyenne p inconnue d’une 
population sans la condition que cr est connu. La procédure usuelle consiste à collecter les données 
d échantillon et à trouver les statistiques ru x cl s Parce que les méthodes de cette section sont 
basées sur ces sLui.isLÎques et que rjn'esl pus requis, les méthodes de celte section sont très réalistes, 
pratiques cL souvent utilisées. 


Ü 


Conditions requises pour estimer p quand a est inconnu 

I î Jéchant i I lo n est u n échau i ï lion a léatoi re sim pie . 

2, Soit la population est normalement distribuée, soit n > 30, 


Comme dans la section 111.3. ta condition de normalité n'est pas une condition stricte. On peut 
considérer qu'une distribution est normale en confirmant qu'il n'y a pas de valeurs extrêmes et 
que rhislogram me a lune forme qui n’esi pas trop éloignée de celle d'une loi normale. Comme 
dans, lu section U 1.3, la condition ?r > 30 est contaminent utilisée comme repère mais la taille 
minimale de Péchant! lion dépend de la façon dont la distribution de la population s'éloigne de la 
loi normale. On utilise la condition n > 3U comme une justification pour traiter la distribution dc^ 
moyennes d éc hamilîon comme une loi normale, La distribution des moyennes d'échantillon jt suit 
exactement une loi normale de moyenne p et d’écart type t r/Vn quand la population suit une loi 
normale de moyenne p et d’écart type a. Si la population ne suit pas une loi normale, de grands 
échantillons fournissent des moyennes d’échantillon qui suivent approximativement une loi 

normale de moyenne p et d’éüurt type rr /V b . 
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Propriétés Importantes de hi loi t de Sludcut 



les cas u = 3 et a 1 2) 


2. La loi ! de Student a la même forme en cloche symétrique que Ea loi normale mais elle reflète 
une plus grande variabilité (avec des distributions pins larges) qui est attendue pour de petits 
échantillons. 

3. La loi r de Student a mie moyenne de f = 0 (tout comme la loi normale a une moyenne de 

s = Û). 

4. L'écart type de Sa loi / de StudcnL varie avec la taille de réchaud Ion muh i est [dus grand 
que I {contrairement a la loi normale pour laquelle <r = 1), 

5. Âu fur et à mesure que la taille de l’échantillon a augmente, la loi r de Student se rapproche 
de la loi normale 



Figure 3-6 Loi i de Student pour ir = 3 et h ~ 1 2 

Ce qui suit est un résumé des conditions d'utilisation de la Soi t plutôt que lu loi normale. Ces 
mêmes conditions s’appliqueront au chapitre suivant, 

Conditions pour utiliser la loi t de Student 

1. cr est inconnu. 

2, Soit la population suit une loi esse n bellement normale, soit n > 3(1, 


Choisir la distribution appropriée 

li est parfois difficile de décider s’il faut choisir lu loi normale z ou la loi t de Student L'organi- 
gramme de la figure 3.7 et le tableau 3-1 qui raccompagne résument tous les deux les points clés 
à considérer quand on construit les intervalles de confiance pour estimer ü. la moyen [te de la 
population. Dans lu figure 3.7 ou Se tableau 3-L on notera que si on a un petit Or ' : é 30) échantillon 
tiré d’une distribution qui diffère beaucoup d'une loi normale, on ne peu a pas utiliser les méthodes 
décrites dons ce chapitre, Une solution es i d’utiliser tk-s méthodes non paramétriques (voir le 
chapitre 9), Une autre solution est d’utiliser un ordinateur avec une méthode de test par permuta- 
tions fou bootsirap). Dans ces deux approches, aucune hypothèse n’est faite sur la population 
originale. 
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Estimât iu n ponctuelle de p : 


_ (limite supérieure) + (limite inferieure) 


Marge d’erreur : 


E = 


( ! imite supérieure) ■ ( limite inferieure ) 


es 


Exemple Kylh me cardiaque des femmes. Si on analyse avec SPSS le rythme 
æ cardiaque des femmes du jeu de données 1 de l'annexe B, on obtient l’affichage qui suit 
{figure 3-9). Utilisez- le pour trouver Lest i malien ponctuelle -v et la marge d’erreur E. 
L’échantillon île rythmes cardiaques est tiré aléatoirement d’une grande population de femmes. 


OMtfltflfrK 
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Fuli- :-=ib? i;bE-Eits-.iiriinj vi,ian 
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72.311 

30.30 
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Solution Dans les calculs suivants, ses résultats sont arrondis avec une décimale supplémentaire. 
x - {limite supérieure) + (limite inférieure).^ 

= (80,30 + 72,30)/2 = 76,30 pu Isut ions par minute. 

E = (limite supérieure) - (limite inférïeure)/2 
= (80,30 ■ 72 t 30)/2 = 4,00 pulsations par minute, 

Utiliser les intervalles de confiance pour décrire, explorer ou comparer les données 

Dans certains cas, on peut vouloir utiliser un intervalle de confiance pour estimer un paramètre 
d’une population. Pour Ses températures corporelles utilisées dans cette section, un but important 
pourrait être d’estimer la température corporelle moyenne d'adultes en bonne santé et nos résultats 
suggèrent fortement que lu Valeur couramment utilisée (37,0 "Ci est incorrecte (parce qu’on est 
sûr a 93 9c. que les valeurs 36.78 cl 36,84 contiennent lu vraie moyenne de lu population). Dans 
d’autres cas» un intervalle de confiance peut être un outil parmi d’autres pour décrire, explorer ou 
comparer les jeux de données. 

l 'titisation de la bonne loi . Dans les ^.vrzrzror 1 à 4, effectuez l 'une des action* appropriées : (a) trouver 
la valeur critique z, u/1 , il*) trouver fa valeur critique \ - 2 , U'} établir que ni la {pi normale ni lu toi t ne 
s 'applique. 

1. 95 % ; /] = 5 ; «resi inconnu ; la population semble normale, 

2, 99 % ; jz — .15 ; crest connu ; la population semble très asymétrique. 

3+ 90 % ; ri - 92 ■. c? est inconnu : lu population semble normale 

4. 9K % : n — 7 ; c— '27 : la popuiüLiün semble normale. 

Détermination des intervalles de. confiance. Dans I exercice 5, ut i Usez te niveau de confia ncr et les 
données d'échantillon pour tnwvei iVr) ht marge d erreur a (b) EirUervaU e de confiance pour la ntoyetute p 
de la population . On supposera par la population est normale. 

ï» Test de maths/scoie pour les femmes : 95 %, n = 15, 4 = 496, st = 1U8, 
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Figure ,].1I La loi du khi* deux 

Figure 3*1Q La loi du khi-deux pour ddl = 10 et ddl = 20 



Exemple Valeurs critiques. Trouvez les valeurs critiques du y- qtii déterminent les régions 
critiques pour une aire de U ,025 dans chaque queue. On supposera que la taille associée de 
l'échantillon est 10 et donc que le nombre de degrés de liberté est 10- 1 == 9. 


Solution Regarde?, lu figure a. 12 avec une table de khi-deux sous les yeux. E.j valeur critique 
à droite (g 1 = 19,023) est obtenue directement en lisant la table à la ligne du nombre de degrés 
de liberté égal à 9 et a la colonne 0,025, Lu valeur critique à gauche (y 2 = 2,700) correspond 


aussi, à la ligne du nombre de degrés de liberté égal à 9 mais on utilise la colonne pour 
0,975 = l -0,025, La ligure 3,12 montre que pour un échantillon de 10 valeurs prises dans une 
population normalement distribuée la statistique du khi-deux b? - \}s 2 !a 2 a une probabilité 0,95 
de tomber entre les valeurs critiques du khi-deux 2.700 et 19,023. 



P OUlr obtenii cette VHteur 

triiique^ localiser 9 clan j 
la colonne gauche des 
degrés de liberté et 
valise* 0.035 au niveau 
ctes en-têtes ch colonnes 


Pour obtenir celle valeur crilique. 
localiser S dans Ja colonne gauche 
des rtegrés rie liberté et localiser 
ü,97& au niveau de-.- an-râles de 
coton nos. L'aine totale à la droite do 
cane valeur clique e&i de 0,975 
qu'on obtient en souslrayani 0,355 à t 


Figure 3.12 Valeurs critiques de la loi du khi-deux 
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3*5 Exercices 


MH 


Tableau 3-2 (suite) 

Taille d’échialallon pour a- 

'['aille d'échantillon pour a 

Pour êthe sûr El 99 % de la valeur de o : . 

(Lttc J" est ci nm -iris de la taille d'échantillon 

doit être au meurs 

l 'osa Cir e sïlr à 99 de la valeur Je it, 

que a cn-1 il moi de la taille d'échantillon. 

tLü]l ùlrc au moins 

1 % 133 44Ü 

5 <•* 5 457 

10 «i 1 491 

20 «i 36S 

30 % 171 

10 100 

50 % 67 

1 33 21 8 

5 % 1 335 

Et] % 335 

20 % 94 

30 % 37 

40 % 7] 

50 % 1 3 



Exemple Noms voulu ns estimer Pécari type des températures; corporelles. On veut être 
sûr à 95 % que notre estimation sera à moins de 10 % do la vraie valeur de o\ Quelle doit, 
être la titille de l'échantillon V On supposera la population normalement distribuée. 


Solution À l’aide du tableau 5-2 on voit que le niveau de confiante à 9b % et une erreur de 
10 % pour cr correspondent à une taille d'échantillon de S9l. On devrait choisir aléatoirement 
101 valeurs de la population des températures corporelles. 


Determ inatio n des valeurs critiques* Dans les exercices i et 2, trouver ^ ci /r. qui correspondent au 
uîmtn de confiance et à ta unité déchantiflor t donnés 

1, 95 % ; n = 15, 

2, 99 % ; n = 80. 

Détermination des intervalles de confiance. Dans tes exercices J et 4 r utilisez te niveau de confiance et 
les données d'échantillon pour trouver un inter rat le de confiant e de l'écart type es de la population. Dans 
chaque, cas, apposez qu'un échantillon aléatoire simple a été sélectionné d'une, population normale, 

3, Salaires de proie sseurs de biologie ; ni venu de confiance 95 %. /s = 20. .v = (i 5 00( y = 12 345 S. 

4* Durées enlte les utilisations de la télécommande du téléviseur par les Imnunes pendant la publicité : 
niveau de confiance 90 n = 30. !î = 5.24 S. .y = 2,50 s. 

Détermination des tailles d'échantillon. Dan:- les exercices 5 et 6, supposez qtt un échantillon aléatoire 
simple a été sélectionné t l'une population normale, 

3, Prouvez la taille d'échantillon minimale requise peur être sûr à 95 % que Pécari type .y d’échantillon 
standard est à moins de 10 C Æ de a. 

G, Trouvez la taille d'échantillon minimale requise pour être sûr a 99 l 'A que lit variance d' échantillon est 
h moins de S r 7 de b variante de la population. Celle valeur est-elle une taille d'échantillon pratique 
pour la plupart des cas ? 

Trouver des intervalles de confiance. Dans les exercices 7 à 10, supposer que chaque échantillon est 
un échantillon aléatoire simple issu d'une population normale. 

7 p Données historique. s de maïs* Dans « The Probable Enrorol a Meau « de William Gosset {Biometrika, 
vol VI. n° 1), paru en 1908. les valeurs suivantes étaient listées peur les rendements d’épis de maïs 
en kg par hectare. Ces valeurs correspondaient à des graines ordinaires (et non pas sèche es au tour). 
Construisez un intervalle de confiance à 95 % de l'écart type, 

2 131 2 170 2 142 2 799 2 364 2 199 2 310 1 520 1 808 1475 1695 
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Utilisons te bon sens ci pas de méthodes statistiques formelles. Que pourrions-nous conclure sur 
l'hypothèse de non-efficacité de « Choix du sexe » si 100 couples l'utilisent et ont IÜÜ bébés 
avec ; 

ll 52 filles ? 
b. 97 filles ? 

SoumoN 

ti. On devrait normalement s’attendre h avoir environ 5U filles sur 100 naissances, Le résultat 52 
est proche de 50 et ou ne devrait pus conclure que & Choix du sexe » est efficace. Si les 
10Û couples n'utilisent aucune méthode spéciale pour choisir le sexe, le nombre 52 peut être 
dû lui hasard Avec 52 filles sur 100 naissances, il n’y li pas de preuves suffisantes pour dire 
que « Choix du sexe » est efficace. 

b. IJ est extrêmement improbable que le résu hui 97 filles sur 100 naissances soit du au hasard. 
On peut expliquer lu survenue de 97 l C lus de tieux façons : ^oit un événement extrêmement 
rare est survenu par hasard* soit « Choix du sexe » est efficace. La probabilité extrêmement 
faible d’avoir 97 filles est une preuve forte contre l’hypothèse que « Choix du sexe » esr inef- 
ficace. Dans ce cas, « Choix du sexe » semble être efficace, 


Le point clé de l'exemple précédent est qu T ün ne doit conclure a l'efficacité du produit que si 
on u de façon significative plus de filles qu’on ne devrait normalement en attendre. Bien que les 
résultats 52 filles et 97 filles ho: i tous deux «.au-dessus de la moyenne », le résultat 52 filles n’est 
pas significatif alors que 97 filles est un résultat significatif. 


Ce bref exemple illustre l’approche de buse utilisée dans les tests d'hypothèse, Ly. méthode 
formelle met en jeu un grand nombre de termes standard et de conditions intégrés dans une 
procédure organisée. Mous vous suggérons de commencer l'étude de ce chapitre en Usant d’abord 
rapidement les sections IV,2 et IV. 3 pour vous faire une idée générale des concepts, puis de relire 
la section IV. 2 avec psus d'attention pour devenir familier de la terminologie. 


ÏV.2 Bases des tests d'hypothèse 


Dans cette section, nous décrivons les composantes, formelles utilisées dans les tests d‘ hypothèse : 
hypothèse nulle, hypothèse alternative* statistique de test, région critique, niveau de significativité, 
valeur critique, p -salue, erreur de première espèce* de deuxième espèce, On insiste (-tons nette 
section sur tes composantes individuelles d'\t{j test d*k\p&thè8€ alors Ljite du ns tes sections 
suivit n Ht ï nous considérerons ces composantes ensemble dans des procédures globales. 


Buts de cette section 

-Étant donné une hypothèse, identifier l'hypothèse nulle, l'hypothèse alternative et les 
exprimer sous une forme symbolique. 

- btuni donné une hypothèse et des données d'échantillon, calculer lu valeur de la stali.slique 
de test. 


- Étant donné un niveau de significativité, identifier Sa valeur critique. 

- Étant donné la statistique de test, identifier la p -value. 

- Établir la conclusion du test d’hypothèse en termes simples et non techniques. 

- Identifier les erreurs de première et deuxième espèces qui pourraient être fuites quand on 
Leste une hypothèse donnée. 

Vous devriez étudier l’exemple suivant jusqu 'h ce que vous Bayez compris en détail. Dès lors, 
vous aurez Liequis un concept majeur des statistiques. 
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de Su figure 4.2, utilise? les affirmations suivantes pour exprimer sous fort tic symbolique 
l T hypo thèse nulle et l’hypothèse alternative correspondante ; 


a, La proportion de pois à gousse jaune est égale à ü,25. 

b, La lai lie moyenne d'.iti homme adulte est au plus de IS3 cm. 


e. L'écart type pour lu raille des femmes adultes est supérieur à 6 cm. 


SOLUTHIM 

a. Pour l’étape l de la figure 4,2, on exprime l’affirmation donnée par p = 0,25. À l’étape 2. on 
voit que si p = 0,25 est fausse* alors p * 0,25 doit être v raie. Pour l'étape 3, on voit que dans 
les deux expressions p = 0,25 et p * 0,25 l'expression p ^ 0,25 ne contient pas d’égalité. Oit 
l'utilise donc comme hypothèse alternative. On pose donc //j : p 4- 0,25 et //., : p - 0,25. 

b. Pour l’étape L on exprime la moyenne est au plus de 183 cm » par la forme symbolique 
p -==" 183- À l’étape 2, on voit que si p ^ 183 est fausse, alors p > 183 doit être vraie. À l’étape 3, 
on voit que p > 183 ne contient pas d'égalité, donc on un fuit Y hypothèse alternative. Donc 
H l ïp> 183 et W 0 ; p = 183. 

c. Pou j ! 'étape 1, on exprime raffirmation sous la forme a > 6 + 0, À Té tape 2 + on voit que si. 
o > 6,0 alors t? ^ 6,0 doit être vraie. Pour Fétape 3, on prend comme hypothèse alternative 
//j : ct > 6,0 (parce qu’elle ne contient pas d'égalité) et donc /ï,,e st or = 6,0. 


Statistique de test 

La statistique de test est une valeur calculée a partir des données d'échantillon et elle est 
utilisée dans la prise de décision du rejet ou non de l'hypothèse nulle, La statistique de Lest 
est obtenue par conversion de la statistique d'échantillon (comme la proportion d’échantillon /), la 
moyenne d’échantillon J ou l’écart type d'échantillon ,y) en un score (comme z, fou X 2 ) en suppo- 
sant que T hypothèse nulle est vraie. La statistique de lest peut alors être utilisée pour déterminer 
si on a suffisamment de preuves contre l'hypothèse nulle. Dans ce chapitre, nous considérons des 
tests d’hypothèse qui mettent et: jeu des proportions, des moyennes ou des écarts types tou des 
variances}. Compte tenu lies résultats des chapitres précédents sur les distributions (Tcchunl il ton- 
nage pour les proportions, les moyennes et les écarts types* nous utiliserons les statistiques rie test 
suivantes. 


Statistique de test pour une proportion 


Statistique de Lest pour une moyenne ; 


a 

P " P 



(7 
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Statistique de lest pour un écart type 
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P- value - aire h 
la gauche die la 
statistique rte Test 


fs value _ doux 
fois Taine à Sa 
gauche de la 
slalistlque de lest 


évalue = deux 
fois - 'aire à la 
droite de la 
statistique dfi te si 


évalua _ sim à 
a droite da la 
statistique de taot 


p-valuo 



p- val ue = deux 
fois cette aire 



p-value = deux 



p^vasuo 



Statistique de test Statique de sesi Statistique de test Statistique de test 


biture 4 j 6 Procedure pour trouver les p -vaincs 


Décisions et conclusions 

Nous avons v u que les affirmations, originales deviennent parfois Phypothcse nu Me et d'autres fois 
l'hypothèse alterna rive. Cependant notre procédure standard pour tester une hypothèse oblige de 
toujours lester l‘ hypothèse nulle cL donc notre conclusion initiale esl toujours l’une de- deux 
conclusions suivantes : 

1. Rejet de l'hypothèse nulle. 

2. Kchec du rejet de PhypOthèse nulle, 


Critère de decision. La decision de rejet ou d’échec de rejet pour P hypothèse nulle es[ géné- 
ralement faite soit selon kl méthode traditionnelle (classique) de lest d’hypothèse, soit selon la 
méthode de la p -va lue, suit encore en se basant sur les intervalles de confiance. Ces derrières 
années. Pu sage de la méthode Traditionnelle a décliné, en partie parce que les logiciels statistiques 
sont souvent conçus pour la méthode de b p -value. 

Méthode tradlfinu ne lie : Rejet de il r si la statistique de test lom.be dans [a région critique. 


Echec du rejet si la statistique de test ne tombe pas dans la région 
critique. 


Méthode de lu p -value : Rejet de si la p -value est ^ vL (où u est le niveau de signal ica- 

tiviié, par exemple 0,05). 

Echec du rejet si la p-\ a lue est > a. 


Autre option i 


Au lieu d’utiliser un niveau de significativité comme a = 0,05 
identifiez simplement la p -value et laissez b décision au lecteur. 
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Contrôler les erreurs du première ut deuxième espèces : une étape dans notre procédure 
standard pour teste;- Ses hypothèses met en jeu la sélection du nneau de significativité tt qui est 
la probabilité d’une erreur de première espèce. P.^r contre, on ne choisit pus fi. 11 serait souhaitable 
de toujours avoir a 0 et fi = 0, mais dans In réalité ce n'csl pas possible et on doit essuyer de 
gérer les probabilités d’erreur a. et fi. Mathématiquement on peut montrer que a, fi et la taille 
d 'échantillon u sont liées et que quand on détermine deux des trois valeurs, 1a troisième est auto- 
matiquement fixée. Une pratique usuelle dans la recherche et dans l’industrie est de sélectionner 
a et n pour que fi soit déterminé. Cependant une valeur de fi supérieure à 0,2 est souvent considérée 
comme trop haute pour qu’un lest d’hypothèse fournisse de> résultats significatifs. Il faut essayer 
d’utiliser la plus grande valeur tolérable de a en fonction de l’impact de l’erreur de première 
espèce. Pour des erreurs de première espèce avec des conséquences très graves, il faut prendre 
des valeurs plus petites pour ex. Prenez ensuite une taille d’échantillon fi aussi grande que possible 
en tenant compte du coût, du temps et des autres facteurs pertinents. La détermination des tailles 
d’échantillon a été discutée dans les sections 111.2 et [11.3. Les considérations pratiques suivantes 
peuvent être ut; les : 

L Pour a fixé, un accroissement de la taille d’échantillon n entraîne une diminution de fi. 
C'est-à-dire qu’un plus grand échantillon diminuera la probabilité que vous commettiez 
l’erreur de ne pus rejeter l’hypothèse nulle alors qu’elle est fausse. 

2. Pour une taille d’échantillon n fixée, une diminution de a entraînera un accroissement de 
fi. Réciproquement, un accroissement de a entraînera une diminution de fi. 

3- Pour diminuer à la fois « et fi, il faut augmenter la raille d’échantillon a. 

Pour donner du sens à ces idées abstraites, considérons les MÆ.Vls (produits par la .société 
Mars) et les plaquettes d’aspirine fia fier in (produites par la société B: istol Meyers). 

- Le poids moyen des bonbons M&Ms est supposé être d’au moins 0,9 g (de façon à être 
conforme au poids indiqué sur le paquet), 

- Les plaquettes de Bufferin sont censées avoir un poids moyen de 323 su g d’aspirine. 

Purée que les M & M s sont des bonbons pour le plaisir alors que les plaquettes Je Bufferin sont 
des médicaments pour traiter des problèmes de santé, on a affaire à deux niveaux très différents 
de gravite. Si les M&Ms n’ont pas un poids moyen de 0,9 g les conséquences ne seront pas très 
graves, mais si les plaquettes de Bufferin ne contiennent pas en moyenne 325 mg d’aspirine, les 
conséquences pourraient être importantes, ce qui inclut des actions en justice possibles et des 
poursuites de la part de l'Agence américaine de l’alimentation et des médicaments (FDA). En 
conséquence, pour tester l’affirmation que u = 0,9 g pour les M&Ms, on pourrait choisir a. = 0,05 
et une taille d’échantillon n ■ 100 ; pour tester l’affirmation que fi = 325 mg pour les plaquettes 
de Bufferin., Ou pourra choisir a. = 0,01 c{ une plus grande Lai Me d’échan:! lion n = 500. Une plus 
grande lui lie d’échantillon nous permet de minimiser fi tout en diminuant aussi «. Un plus petit 
niveau de significativité n et une plus grande raille d’échantillon n sont choisis à cause des consé- 
quences plus graves associées au test d’un médicament public. 

Puissance d’un lest : on utilise fi pour noter la probabilité de ne pas rejeter une hypothèse 
nulle fausse (erreur de deuxième espèce). I! s’ensuit que I - fi est la probabilité de rejeter une 
hypothèse nulle fausse. J. es statisticiens préfèrent nommer cette probabilité puiasctnf'V vie lest et 
ils Puti lisent souvent pour juger l’efficacité d’un test à reconnaître qu’une hypothèse nulle est 
fausse. Une recommandât ion courante est de planifier une expérience pour que ta puissance du 
test en résultant soit au moins de 0,8 fou 80 %), de façon à ce que le test d’hypothèse soit très 
efficace ù rejeter une hypothèse nulle fausse. 
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Identification de H (t et W,. Dum les exercises S ù 0, examinez les affirmations^ puis exprimez t'hypo- 
these nulle ll„ es l'hypothèse alternative H ] sou s forme xytulujlique. Soyez, sûrs tt 'utiliser le symbole 
correct (pt, p, cri pour te paramètre italique, 

3. Le Evxcnu moyen des truvtLi Sieurs qui oui étudie ies- ïLUîm tiques csl supérieur h 50 000 S. 

4* Plus do la moitié des utilisateurs d'Internet teni des je haïs un ligne, 

5. I . ec;irt type de b des femmes ess inférieur à 7. 1 I cm, qui est l'écart type de la taille des hommes, 

6, La quantité moyenne d’alcoul J 90 dans les conLeneiirx cm ali moins de 340 g, 



Détermination des valeurs critiques. Dans tes exen ires 7 a ÎQ, trouvez tes valeurs critiques z. Dans 
chacun des cas, supposez, qidnrt peut utiliser ta lot normale. 

7. Test bilatéral a - Q n Q5- 

8 , lest unilatéral cî = 0 , 01 . 

9 + et — 0,10 ; H y estp^ 0 .lf>. 

10, et = 0.02 ; //, est P < ''\19, 


IV3 Test d'hypothèse pour une proportion 

Dans lu section IV. 2 nous avons présente les composantes individuelles d’un test d’hypothèse mais 
dans cette section nous allons combiner ces composantes dans des tests d’hypothèse polyvalents 
pour des affirmations sur des proportions de population. Les proportions peuvent aussi représenter 
des probabilités ou l'équivalent décimal de pourcentages, Voici des exemptes d’affirmations que 
nous serons capables de tester; 

- Moins d’un quart des lycéens fument. 

Les sujets qui prennent le médicament Lipitorpour réduire leur cholestérol ont des maux de 
télé avec un taux supérieur à 7 %, qui est celui des gens qui rte prennent pas de Lipîtor. 

- À partir d’un sondage Gallup, la majorité (plus de 50 %) des Américains sont opposés au 
clonage humain. 

Les suppositions requises, les notations et la statistique de test sont données ci-dessous. Les 
affirmations à propos d’une proportion sont habituellement testées h l’aide de la loi normale 
comme approximation de la loi binomiale, 


Tester des hypothèses à propos d’une proportion p 


Û l. Les observations d échantillon proviennent dTun échantillon aléatoire vimplé. Il ne 
faut jamais oublier l'importance des méthodes d'échantillonnage. 



i 3 itiép e nd ants c \ ec u j i e m ême proba bïliîé et chaque s s «i i a va qu e de u x ré sulta is, 
nommés - succès - et « échec ». 

5. 1 xa conditions r f p S 5 et nq ■? 5 sont toutes les deux satisfaites ; ainsi la loi binomiale peut 
etre approximée pur une loi normale avec p ■= np et cf = Jrtpq . 
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Solution 

U faut d’abord vérifier que les conditions requises sont satisfaites. Compte tenu de l’expérience, 
il est raisonnable de supposer que l échantillon est un échantillon aléatoire simple, Les condi- 
tions d'une expérience binomiale sont satisfaites parce qu’il y a un nombre fixe d'essais 
in +■ 420 018 = 420 095), que les essais sont indépendants (si un sujet a une leucémie* cela 
n’affecte pas la probabilité qu'un autre sujet l'ait)* qu'il n’y a que deux résultats (leucémie ou 
pus) et que la probabilité de la leucémie reste constante. Au final, on utilise fl - '120 09-5 et 
p = 0*000190 pour voir que np = 80 -5 5 et nq = 420 018 ^ 5. dont lu k>) normale peut Cire Utilisée 
pour approxi mer la foi binomiale. Les conditions sont satisfaites ei le lest pem être effectué. □ 

On utilise la méthode de la p-valuc de la figure 4,9, jî vaut 420 095* p = 77/420 095 ^ 0*000183, 
Note : on pourrait s’arrêter ici car il n’y a aucune chance que la proportion d’échantillon 
p = 0,000183 soit significativement plus grande que le taux supposé 0*000190, Mais nous conti- 
nuerons pour l’exposé de la méthode. 

Etape I. I /affirmation originale est que le luux tic leucémie pou» les utilisateurs île téléphones 

portables est plus grand que 0*000190- Sous forme symbolique : p > 0*000190. 

Étape 2, Son opposé est p : =Z 0*000190. 

Etape 3, Comme p > 0*000190 ne contient pas d’égalité, un en fait , Soit r 

//,. ; p = 0,000190 (hypothèse nulle). 

//, : p > 0,000190 (hypothèse alternative eL affirmation originale). 

Etape 4. Le niveau de significativité est a. - 0,01. 

Étape 5. Parce que l'affirmation met en jeu la proportion p, la statistique associée au test est la 
proportion d’échantillon p et la distribution d’échantillonnage est appi oxim.ee par la loi 
normale parce que Ses conditions requises sont satisfaites. 

Etape 6. La statistique de test vaut z - -0,33 trouvée comme suit : 

0,000183 - 0,000190 


P- P 
[pq 




v 


0,000190 x 0,999810 
420 095 


= - 0,33. 


Reportez-vous h la figure 4.6 pour trouver la p -value. Pour ce test unilatéral à droite, 
z - -0*33 a une aise de U,37Ü7 à gauche (lue dans une table de la loi normale), donc 
l’aire à droite est I - 0,3707 = 0,6293. La p -vu lue est donc 0,6293. 

Étape 7. Parce que la p-\alue 0.6293 est plus grande que le niveau de significativité 0*01 on ne 
peut pus rejeter l’hypothèse nulle. 

fîSïE RPR ÊTATION O n lia pas p u rej eler l’h. yp o t hèse nu 1 le, do ne o n co n s i dère qu’elle es t cor rccte 
pour l’instant. On n’a pas pu confirmer l’hypothèse alternative qui était la conclusion originale. 
Voici la conclusion finale correcte r on n’a pas suffisamment de preuves pour garantir l’affirma- 
tion que tes utilisateurs de téléphones portables ont un taux de leucémie supérieur à 0,000190 
qui est celui des gens qui n "utilisent pas de téléphone portable. I! semble que les utilisateurs de 
téléphones portables ne risquent jvjs plus de développé i une leucémie que les autres. 


Méthode traditionnelle : a Laide lie L méthode traditionnelle on aurait ;es même* cinq premières 
étapes. À l'étape b, la valeur critique serait z - 2,33. À l’étape 7, on ne pourrait pus rejeter l’hypothèse 
nulle parée que la statistique de test r: = -0.33 ne tombe pas dans la région critique, Ht on obtiendrait 
donc la. même conclusion qu’avec la méthode de la p -value juste au-dessus, 
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EjŒMPIE Méthode de la p -va lut (voir figure 4.9) 

j ? Le jeu de données 2 de l’annexe B liste un échantillon de 106 températures, humaines 
dont la moyenne est 36,78 IJ Ü , Supposez que l'échantillon es: un échantillon aléatoire 
simple, que l'écart type cr est connu et vaut U, 34 T, Utilisez un niveau de significativité 
de 0,05 pour tester la croyance commune que la température d’un adulte en bonne santé 
est 37,0 X. 


Solution 

Adaptation II faut d’abord vérifier que les conditions requises sont satisfaites, ce qui est le 

cas . reportez-vous a leur vérification dans l'exemple de la section II 1.3 car il s agit des mêmes 

données. J 

Les étapes suivantes correspondent a la figure 4.9 : 

taupe 1. ] /affirmation que la moyenne est 37,0 |: C s’écnt symboliquement jj = 37,0 C. 

Étape 2. L’opposé s’écrit symboliquement tt * 37,0 X. 

Étape 3. Comme ;r ^ 37,0 °C ne contient pas d’égalité, oit en fait l’hypothèse alternative, soit : 
H,, ; n — 37,0 'X (affirmation originale} 

H [ : fi * 37,0 X. 

Étape 4. Le niveau de significativité est spécifié dans l’énoncé : a = 0,05. 

Étape 5. Parce que ^affirmation est faite sur la moyenne p de la population, la statistique de test 
lis plus adaptée est la moyenne d’échantillon .v = 36,78 X. Comme v est Supposé connu 
et que n > 30, Je théorème de la limite centrale indique que la distribution des moyennes 
d échantillon peut être approximée par la loi normale. 


Étape 6. La statistique de test est calculée comme suit : 

J -fi- 36,78- 37,00 _ 


o 

Æ 


0,34 

v/ÏÛ6 


= -6,66 


À l'aide de La statistique de test -6,66 on trouve la p-vaïue associée qui doit être Se 
double de faire a gauche du z ~ -6,6 car le lest est bilatéral. À Laide d'une table de la 
loi normale, faire a gauche est 0,0001 donc kl p -value est 0,0002, 

Étape 7. Comme la p-value 0,0002 est plus petite que le niveau de significativité a = 0,05, on 
rejette l’hypothèse nulle. 

Interprétation La p-value 0,0002 est la probabilité d'obtenir par hasard une moyenne 
d’échantillon aussi extrême que 36,78 t: C (pour une Lai :1e d’échantillon n = 106) en supposant 
que fi =. 37,0 X et <r = 0,34 X. Comme celle probabilité est très petite, on rejette le hasard 
comme explication probable et on conclut que l’hypothèse ft = 37,0 C doit être fausse. À l’aide 
de la figure 4.7 de la section 3V.2, on conclut qu’il y a suffisamment de preuves pour dire que 
la moyenne des températures diffère de 37,0 X, 


Al 
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Exemple Températures. Une étudiante en médecine doit réaliser un projet de statis- 
tiques. InLriguée par les températures du jeu de données 2 de "■"l’innexe \l 7 elle décide de 
collecteriez propres données pour tester l'hypothèse que la moyenne des températures 
est inférieure a 37,0 °C- A cause de contraintes horaires imposées par les autres cours 


et son envie de maintenir une vie sociale (nocturne i) elle se rend compte quelle n'aura le temps 
de ne collecter que 12 valeurs. Après avoir planifié soigneusement la sélection d'un échantillon 
aléatoire simple do 12 adultes en bonne santé* elle obtient les températures listées ci-dessous. 
Utilisez un niveau de significativité de 0,05 pour teste! 1 l’hypothèse que la moyenne de ces 
températures est issue d'une population dont la moyenne est inférieure à 37*0 C . 


Solution 


36,67 


3-7,00 


36,39 37/10 37 J I 36,67 36,94 

37.44 36*89 37*06 37,00 36*44 


Û ÏJ faut d’abord vérifier que les conditions requises sont satisfaites. On doit disposer d'un 
échantillon aléatoire simple, ce qui est ic cas d'après l'énoncé, Ensuite u ~ 12 est inférieur 
à 30. donc il faut tester la normalité. 13 histogramme suivant fourni par STAT DISK 
(figure 4.12) montre que les données suivent une distribution pas très éloignée de lu loi normale, 
donc le test peut être effectué, J 



Données d'échaut Non 


Figure 4,12 

Après calcul sur les données, on a es statistiques d’échantillon suivantes : x = 36,88 W C, 
s = 0,297 °C. La moyenne x = 36 .SS est inférieure à 37/) "C\ mais il faut déterminer si elle 
est significativement inférieure à 37/) D C. On utilise les étapes de la figure 4. K. 

Étape I. I "affirma Lion originale que « la moyenne est inférieure u 37,0 "C » s’écrit symbolique- 
ment < 37,0 Ù C, 

Etape 2. L’opposé s'écrit symboliquement p 37,0 U C. 

Étape 3. Comme p < 37,0 C ne contient pas d'égalité, on en fait r hypothèse alternat tve, soit : 
H ü : p = 37,0 °C 

H ] : p < 37*0 D C (affirmation originale). 

Étape 4. Le niveau de significatif îté est a — 0,05 > 
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Détermination des composantes. Dam fe* exercices 5 et 6 . supposez qu’un éc haiitiïlun aléatoire simple 
a i dé sélectionné à partir d’une population normalement distribuée. Trouvez ht statistique de test. ht 
p-vatue^ lé (s) vitleittij) crdiqueis) et établissez ht conclusion finale. 

5. Affirmation : lu moyenne- du score de Q1 pour ks professeurs de statistiques est plus gronde que NB. 
Données d'échantillon : n = 20, jf - t20, s - 12. l e niveau de significativité est a - 0„Q.4. 


<i, Affirmation ; la duree moyenne entre les utilisations de N télécommande du téléviseur pur les hommes 
pendant la publicité est égale à 5,00 s. Données d’écliaiihllon : n =81, x - 5,25 s. v - 2,50 s. Le niveau 
de significativité est a - (KOI. 



Tests d'hypothèses. Dans les exercice* 7 à 10, supposez qu’un éi hmttiflon aléatoire simple a cie chois.; 
ri partir d’une papulation normalement distribuée et lestez, l'affirmation donnée. Utilisez ht méthode 
tratiîtiottru'fie oit la méthode de ht p-vnfta . 


7. Effet d'an complément en vitamines sur le poids à la naissance. Des poids a la naissance fen kilo- 
grammes) pour tut échantillon d 'enfants mâles mes lIq mères ayant eu un complément en vitamines ont 
été enregistrés (d’après des données du département de lu santé île l' Liai de IMc^v York). Quand ut] tes le 
ILtfïïiromion que le poids moyen h la naissance pour de tels enfants est égal h 3.39 kg. qui est le poids 
moyen pour toute la population, SPSS affiche les résultats suivants. D'après ces résultats, est- ce qu'il 
semble qu'un complément en vitamines ait uni effet sur le poids à la naissance V 


Ohe-Samplo lest 



Te&t Value - 3.39 

t 

tif 

SIg, (2-taited) 

Mean 

Différence 

95% Confidence 
interval oflfce 
Différence 

Lowe: 

Upper 

U- 1 

1.734 

15 

.103 ' 

.2849994 

-.0852603 

.8352595 


Figure 4.14 


S* Tmlk de s parents. Le jeu de données 3 de l'annexe B inclut les tailles de 20 parents pour des enfants 
males. Si lu différence de taille pour chaque couple de parents est obtenue en soustrayant la [aille de 
la mère à celle du père, le résultat est une liste de 20 valeurs don? la moyenne est J 1.18 cm el l 1 écart 
type 10,67 C: 1 n. 1 i lise?. le niveau de significativité 0,01 pour lester l'aflu million que la différence 
moyenne est supérieure à 0. Lsl-ce que ces résu Hat s continuent l' affirmation des sociologues que les 
femmes ont tendance à épouser des hommes plus grands qu elles "! 


y, Sucre dans le s céréales. Lu échantillon rie paquets de céréales est sélectionné aléatoirement cl le 
contenu en sucre (grammes de sucre par gramme de céréales.] est enregistré. Ces quantités sont résu- 
mées par les statistiques : n = 16. x =11,295 g, s = 0,168 g. IJ li lisez le niveau de significativité 0,0.5 pour 
lester r affirmation que le contenu moyen en sacre est inférieur h 0.3 g. 


HI. Gagnants aux Jeux Olympiques. On liste ci- dessous lus temps gagnants (en secondes) des vainqueurs 
du ICK) mètres hommes lors de jeux Olympiques d’été consécutifs classés pur ordre décroissant en 
ligne. En supposant que ces résidons sont des données d'échantillon sélectionnées aléatoirement de la 
population de tous les jeux Olympiques passés el à venir, les le/ l'affirmation que la moyenne est 
inférieure li ê 0.5 s. Qu 'observez- vous a propos de la précision de cas nombres ? Quelle caractéristique 
importante du jeu de données n est pas prise en compte dans ce te si d f hypothèse L ? Est- ce qL3e les 
résultats vie ce te St tl' hypothèse Sllggërertl que les prochains temps gagnants Seront autour de 16,5 S et 
est-ce qu'une telle conclusion est valide V 
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1 1,2 

1Û,Ê 

1Û,& 

L0, B 

1 0.6 

10.B 

10,3 

10,3 

16,5 

10,2 

10,0 

9.05 

10,! 4 

i 0.(36 

10,25 

9,99 

9,92 

9.96 


Auteurs rechtelljk beschefmd m ateriàaj 


Test d’hypothèse pour une moyenne : a inconnu 




.6 Exercices 


Tintervallc de confiance S 95 %, soit %2 < <? < U.9. Comme lit valeur supposée a = 15 n'est pas 
contenue dans l'intervalle de confiance, on rejette l'affirmation et =- 15 et on retrouve donc la même 
conclusion qu'avec les deux autres méthodes. 


Détermination des videurs critiques. Dans les exercices l et 3, irourez la dctTîsîique de u ?.vr„ puis utilisez 
la lubie delà loi du y 2 pour trouver fe(s) vafeur(.y) c rit kiu >/{.•) et les {inities qui t antieimeni la p -value et, 
enfin, détermine: s'il y a suffisant ment de preuves, peur confirmer l'hypothèse alternative fournie; 

1. H x : œ* 15 : a = 0.05 : a -= 20 : s = KL 

2* //, : a <50 : a = 0,01 : ,j = 30;,v = 30. 



Te kl de s affirmations à propos de ta dispersion. Dan-, les exercices 3 à 5. u stîez l'affirmation donnée. 

Supposez (fit "un ét iictnfilfoo aléatoire simple a été sélectionné d partir d 'une population normalement 

distribuée. On utilisera ta méthode traditionnelle. 

3* Températures. Dans ta section IV l. nous avons tes ré ralïîrn talion que la température moyenne était 
ég ale i 37.Ü : C et on a utilise le jeu de données 2 de l'annexe B que l'on peut résumer par : u — 196. 
x = 36,78 C, v = l). 34 C. Un histogramme montre que les valeurs ont une distribution approximative- 
ment normale. Dans 1.4 section IV, 4, nous avons supposé que <r = ü,34 "C. te qui est usseü peu réaliste. 
Cependant lu statistique de test causera Je rejel de p = 37,0 C tant que l’écart type sera inférieur 
h 1 ,17 "C. Utilisez les statistiques d'échantillon et un niveau tic significativité 0,005 pour tester 
r affirmation que cr< 1J7 : C. 

4. Taille des top madels. Utilisez, un niveau de significativité 0*05 pour tester l'affirmation que ia taille 
des femmes top modeis. varie moins que celle des femmes en général. L’écart type de la taille des 
femmes est 6,35 cm. On liste ci -dessous la taille (en cm} de top niûdelx sélectionnées aléatoirement. 

m) 180 1 79 L75 176 179 180 183 178 

178 175 177 175 178 £78 169 178 130 

5, Est-ce que la nouvelle machine est meilleure ? La compagnie pharmaceutique Medassist utilise une 
machine pour verser des médicaments liquides dans des bouteilles de telle sont que r écart rvpe du 
poids soit 4.25 g. Une nouvelle machine est testée sur 7 1 bouteilles et l'écart type pour cet écliantillui) 

3.4 g. La compagnie des machines Dayton qui fabrique la nouvelle machine affirme qu'elle remplit 
avec moins de dispersion. Teste/, au niveau de significativité 0,05 l'affirmation faite par la compagnie 
des machines Dayton, Si cette machine était utilisée en test, faudrait-il racheter ? 

(S* Poids des homme t. Des données d'une enquête lUithropomél. (que sont utilisées pour publier des valeurs 
afin de permettre la fabrication de produits pour des adultes. Selon Goidon, Churchill et al., les hommes 
uni un poids moyen de 78, 1 kg avec un écart Lype de 13 î kg, Â l’aide dé l'échantillon des poids des 
boni me s listés dans le jeu de données I de l'annexe B, testez •’ affirmation que l’écart type est de 13.1 kg. 
Utilisez |e niveau de significativité U ..(15- Quand on construit Lies ascenseurs, quelle serait |a consé- 
quence dé croire que îc puids des hommes varie moins qu'en réalité ? 

7, Détermination des valeurs critique* de y}. Pour un nombre élève de degrés de liberté, il est possible 
d'approximer les valeurs critiques du /- comme suit : 

r = i 72* - 1 ) 

Ici k est le nombre de degrés de liberté et est la valeur critique lue dans la table A- 2. Pus exemple si 
on veut approximer les deux valeurs critiques du y 1 dans un test d'hypothèse bilatéral avec ce = 0,05 
et une lui Ile d’échantillon dé 150. on ulibse k = 149 et z = 1 .96 puis k. = 149 cl z = + 3,90, 

a. Utilise/, cette approximation pour estimer les valeurs, critiques du y- dans un test d'hypothèse 
bilateral avec n - [(U et nr - 0.05, Comparez ces résultats avec ceux trouvés dans la Table A-4, 

h. Utilisez cette approximation pour estimer les valeurs critiques du y- dans un tes s t d’hypothèse 
bilatéral avec n = 150 et a = 0,05. 
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[nfcrcnccs à partir de deux échantillons 


<>u.\ p, 

supposé dans l'bypothève nu ILl 

WÊ 2Y 

P = R et p , 

lü 


flj 

~ -T, + X 1 

p =X ■ . . ■ 


M i. +:n i 


'7 0pT- 


p-vqlue t 

utilisez la table A 2. Calculez la valeur de la statistique <k test z et. trouvez 
la p“Vâjbe en Suivant la procédure résumée ;i là figure 4.6. 

Valeurs critiques 

utilisez la table Â-2, A partir du seuil de significativité cr t trouvez les 
valeurs critiques en utilisant les procédures introduites dans la section Eli. 2. 


L'exemple suivant est utile pour clarifier les rôles de a m w ! + jJf >p et ainsi de suite. En particu- 
lier. on reconnaît que sous ['hypothèse de proportions égales, la meilleure estimation de la 
proportion commune est obtenue en combinant les deux, échantillons ; ainsi p devient une esti- 
mation plus directe de la proportion de la population commune. 


e? 


Exemple Test de lkfîîcacitc d 'un vaccin* Dans le problème introductif du chapitre, 
- [article de l 'SA Today rapportait des résultats expérimentaux relatif à un vaccin admi- 
nistré à des enfants. Sur les ] 070 enfants ayant reçu le vaccin, 14 ont développé la grippe. 
Sur les 532 enfants qui ont reçu un placebo, 95 ont développé la grippe (tableau 5-lb 
Utiiis.Lv un seuil Je significativité de Q,ÛS pour levier IWfifinulion que la proportion (Tentants 
vaccinés qui développent la grippe es! inférieure if celle des enfants qui uni reçu un placebo. 


SoUJï'ioin ün décide que l’échantillon I est le groupe recevant le traitement (vaeein) et l|uc 
I ce ht uni lion 2 est le groupe placebo, Nous pouvons résumer les données comme suit (les propor- 
tions p] et sont données avec des décimales supplémentaires car elles seront utilisées dans 
des calculs ultérieurs). 


Il 11 l'unis VLivulfléü 

IjlIilIllS 11U 11 

Viivviiifés 

n, = 1 ii70 


n ; = 552 


-ï E = 95 


.t, = 95 


fi= fl 

"i 

H = Q.033ÜB4 

y 2 ~ — i 

Ji r 

^ = O.I7S57 1 

1 074 

552 


Nous devons d'abord vérifier que les conditions requises sont satisfaites (voir plus haut). D’après 
le plan d’expérience, il est raisonnable de supposer que les deux échantillons sont des échan- 
tillons aléatoires simples et qu'ils sont indépendants. En outre, chaque échantillon comporte 
au moins 5 succès et 5 échecs : k premier contient 14 succès eE l 056 échecs, le second 
95 succès et 437 échecs. Les conditions sont donc respectées et le test ddiypo thèse formel peut 
être effectué. □ 

Nous allons utiliser la méthode de la p -value pour le test d’hypothèse, résumée a la figure 4.9. 
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